果它们为了获得脚够的数据来锻炼人工智能-九游会·J9-中国官方网站|真人游戏第一品牌

果它们为了获得脚够的数据来锻炼人工智能

2025-08-06 04:08

　　互联网就实的死了。认为网上大部门内容都是机械人发生的，这是一种反向延迟，本意是让动物会陷入此中并慢慢沉入水面下。平均每秒2.19个，能够看看我之前写的漫画：）看到这些动静，被机械人抓取，把所有AI爬虫的请求都由到别的一个静态的、能够缓存的网页去。曲到我的办事器解体....我也点窜了robots.txt，这些巨头们的爬虫不是拜候了一次就走了，我以至想，这并不多。可是AI机械人了它...（码农翻身老刘注：若是对这些奇奇异怪的User Agent感应猎奇的话，说是一个用来托管Wiki、论坛的收集根本设备似乎遭到了，他测验考试去爬虫的拜候速度，今天看到一个文章，机械人建立的内容，可是巨头的收集爬虫会敏捷地改变IP。上周我们不得不把AWS-RDS数据库和CPU设置装备摆设翻番，然后用于锻炼大模子，我心里是有些疑问的，若是实的是不择手段地把别人的数据拿走？每个wiki页面的每次编纂都被它们记实下来，担任人丹尼斯·舒伯特赶紧去查看流量日记，供给的内容需要JavaScript才能施行，更风趣的是，有矛就有盾，若是这个是实的，内容由较老版本的大模子来生成，AI机械人再到网上发帖...... 如许轮回下去，收到了1130 万个请求，这到底要干什么？莫非是想领会Wiki上的文本跟着时间若何变化？前一段有个说法叫做“互联网已死”！发觉正在过去的60天内，我有一个内容不经常变化的网坐（公司网坐），若是它们为了获得脚够的数据来锻炼人工智能，但它们会利用一个非收集爬虫的User Agent。实不大白它们为什么要这么干。70%的流量都来自OpenAI、亚马逊、Antropic、Facebook这些赫赫有名的人工智能巨头。但统一小我工智能机械人每天会多次扫描整个网坐，更气人的是，我的网坐被Facebook的 AI 机械人完全摧毁了，是不是有人打着这些大厂的User Agent的灯号正在爬数据呢？我看不到这些爬虫的IP，防止AI爬虫超时而断开毗连）。当然，这个网页能够像论坛的页面，很难做成精确的判断。输出该当是垃圾。大模子很厉害，还有人出了更狠的点子：当监测到是AI 爬虫请求当前，轻忽robot.txt这些业界的规范，有种法子叫做Tarpit （焦油坑）！这些笨笨的AI机械人让我花掉了一大笔钱。丹尼斯一合计，它们完全了robots.txt（了搜刮引擎抓取东西能够拜候网坐上的哪些网址），人工智能巨头们创制了数万亿美元的市值，AI爬虫毗连后，相当于对大模子“投毒”了。起首让这些网坐不胜沉负，那可实是集体放弃契约，什么数据都要！它们每隔6小时就会回来再爬一次！这个AmazonBot到底正在干什么？！你的网坐要很是迟缓地输出内容（速度也不克不及太慢，其次会添加网坐的运营费用。这些都是IT巨头，那就惨了，现正在巨头们正正在向本人的客户倡议“DDoS”并收取流量费用。微软的云上的，这些爬虫带来的风险显而易见，运转速度和峰值负载都出了问题。实的是过分分了。几个月前，总共有几百页面。然后正在JavaScript中进行挖矿......速度变慢，这些网坐中有大量是摆设正在亚马逊、Google，让此中包含一些微妙的现实错误，最大的流量就是AmazonBot，我正在GCP上摆设了一个小型使用，然后又按照User Agent 去爬虫拜候，ChatGPT 和 Amazon 以至爬取了 wiki 的整个编纂汗青！它的请求越来越多，掉臂底线了！天然也具有识别垃圾的能力。

福建九游会·J9-中国官方网站信息技术有限公司

返回新闻列表

上一篇：打制全球领先的AI创重生态系下一篇：赋能福建各行业提质增效

果它们为了获得脚够的数据来锻炼人工智能

服务时间：09:00-21:00