多个开源项目(如Fedora Pagure、GNOME GitLab、KDE) GitLab 等)因受到来自 AI 公司的爬虫流量攻击而面临巨大压力,导致项目不得不采取极端措施,如禁止特定国家或 IP 范围的流量,或实施验证系统以过滤机器人流量。这些爬虫不仅消耗大量带宽,增加了项目运营成本,还导致服务器过载,甚至产能过剩生虚假错误报告,浪费了开发人员的时间。
Fedora系统的管理员Kevin Fenzi**在博客上说:他们试了很多办法都挡不住机器人刷流量,最后只能把整个巴西的访问都封了,巴西涉嫌黑客攻击的IP有:
- 190.0.0.0/8
- 207.248.0.0/16
- 177.0.0.0/8
- 200.0.0.0/8
- 201.0.0.0/8
- 145.0.0.0/8
- 168.0.0.0/8
- 187.0.0.0/8
- 186.0.0.0/8
- 45.0.0.0/8
- 131.0.0.0/16
- 191.0.0.0/8
- 160.238.0.0/16
- 179.0.0.0/8
- 186.192.0.0/10
- 187.0.0.0/8
- 189.0.0.0/8
GNOME团队用了个叫"Anubis"的系统,要求访问者必须先做一道数学题才能看内容。管理员Bart Piotrowski发帖说:只有3.2%的访问(8万多次里不到3000次)能通过验证,说明绝大部分都是机器人。
KDE团队的服务器直接被阿里巴巴IP段的爬虫搞瘫痪了,临时关停维修。
虽然Anubis能防机器人,但普通人用着也难受:比如群里分享链接时,一堆人同时点开,网页就会卡死。有手机用户反映:光解数学题就要等两分钟。
这事去年就开始了:
社交平台Diaspora的管理员发现:70%的流量来自AI公司,简直像全网被黑客攻击。
费钱又费资源:
- - Read the Docs网站屏蔽AI爬虫后,流量从每天800GB暴跌到200GB,每月省下1500美元(约1万人民币)网费。
- - 开源项目本来就没钱,AI爬虫还专挑耗资源的页面(比如代码修改记录)疯狂刷,服务器都快被压垮了。
- - 更气人的是:这些爬虫会伪装成真人浏览器,换着IP地址来,根本防不住。
Inkscape软件的Martin Owens吐槽:"现在黑名单越来越长,如果你在AI大公司上班,可能永远访问不了我们网站了。"
程序员论坛Hacker News上都在骂:AI公司仗着有钱为所欲为,根本不管小项目的死活。
新麻烦:AI还会制造假bug
去年12月起,一些项目开始收到AI生成的虚假错误报告(比如Curl项目的Daniel Stenberg就遇到过)。开发者浪费时间查了半天,发现漏洞根本不存在。
谁在搞事情?
- OpenAI的机器人占Diaspora流量的25%
- 亚马逊占15%
- Anthropic占4.3%
最过分的是阿里巴巴的爬虫,直接把KDE服务器干趴了。
它们想干嘛?
有些可能是为了训练AI模型,有些是回答用户提问时实时搜索。但Dennis Schubert发现:这些爬虫每6小时就来扫一遍,根本不是一次性的。
反击战开始了!
1. 有人开发了"Nepenthes"陷阱程序,专门给AI爬虫喂假内容,让它们白花钱(开发者说:"反正这些公司还没盈利,耗死它们")。
2. Cloudflare推出了"AI迷宫"**服务,检测到爬虫就引导它们去刷AI生成的废页面。
3. 社区搞了ai.robots.txt共享黑名单,帮小网站一键屏蔽AI爬虫。
最后警告:
如果AI公司继续这样"吸血",不跟开源社区合作,最终可能毁掉整个互联网生态——毕竟连它们自己的AI也是靠这些开源项目喂大的。