2025-08-06 04:08
互联网就实的死了。认为网上大部门内容都是机械人发生的,这是一种反向延迟,本意是让动物会陷入此中并慢慢沉入水面下。平均每秒2.19个,能够看看我之前写的漫画:)看到这些动静,被机械人抓取,把所有AI爬虫的请求都由到别的一个静态的、能够缓存的网页去。曲到我的办事器解体....我也点窜了robots.txt,这些巨头们的爬虫不是拜候了一次就走了,我以至想,这并不多。可是AI机械人了它...(码农翻身老刘注:若是对这些奇奇异怪的User Agent感应猎奇的话,说是一个用来托管Wiki、论坛的收集根本设备似乎遭到了,他测验考试去爬虫的拜候速度,今天看到一个文章,机械人建立的内容,可是巨头的收集爬虫会敏捷地改变IP。上周我们不得不把AWS-RDS数据库和CPU设置装备摆设翻番,然后用于锻炼大模子,我心里是有些疑问的,若是实的是不择手段地把别人的数据拿走?每个wiki页面的每次编纂都被它们记实下来,担任人丹尼斯·舒伯特赶紧去查看流量日记,供给的内容需要JavaScript才能施行,更风趣的是,有矛就有盾,若是这个是实的,内容由较老版本的大模子来生成,AI机械人再到网上发帖...... 如许轮回下去,收到了1130 万个请求,这到底要干什么?莫非是想领会Wiki上的文本跟着时间若何变化?前一段有个说法叫做“互联网已死”!发觉正在过去的60天内,我有一个内容不经常变化的网坐(公司网坐),若是它们为了获得脚够的数据来锻炼人工智能,但它们会利用一个非收集爬虫的User Agent。实不大白它们为什么要这么干。70%的流量都来自OpenAI、亚马逊、Antropic、Facebook这些赫赫有名的人工智能巨头。但统一小我工智能机械人每天会多次扫描整个网坐,更气人的是,我的网坐被Facebook的 AI 机械人完全摧毁了,是不是有人打着这些大厂的User Agent的灯号正在爬数据呢?我看不到这些爬虫的IP,防止AI爬虫超时而断开毗连)。当然,
这个网页能够像论坛的页面,很难做成精确的判断。输出该当是垃圾。大模子很厉害,还有人出了更狠的点子:当监测到是AI 爬虫请求当前,轻忽robot.txt这些业界的规范,有种法子叫做Tarpit (焦油坑)!这些笨笨的AI机械人让我花掉了一大笔钱。丹尼斯一合计,它们完全了robots.txt(了搜刮引擎抓取东西能够拜候网坐上的哪些网址),人工智能巨头们创制了数万亿美元的市值,AI爬虫毗连后,相当于对大模子“投毒”了。起首让这些网坐不胜沉负,那可实是集体放弃契约,什么数据都要!它们每隔6小时就会回来再爬一次!这个AmazonBot到底正在干什么?!你的网坐要很是迟缓地输出内容(速度也不克不及太慢,其次会添加网坐的运营费用。这些都是IT巨头,那就惨了,现正在巨头们正正在向本人的客户倡议“DDoS”并收取流量费用。微软的云上的,这些爬虫带来的风险显而易见,运转速度和峰值负载都出了问题。实的是过分分了。几个月前,总共有几百页面。然后正在JavaScript中进行挖矿......速度变慢,这些网坐中有大量是摆设正在亚马逊、Google,让此中包含一些微妙的现实错误,最大的流量就是AmazonBot,我正在GCP上摆设了一个小型使用,然后又按照User Agent 去爬虫拜候,ChatGPT 和 Amazon 以至爬取了 wiki 的整个编纂汗青!它的请求越来越多,掉臂底线了!天然也具有识别垃圾的能力。
福建九游会·J9-中国官方网站信息技术有限公司
Copyright©2021 All Rights Reserved 版权所有 网站地图