开源开发者如何智慧反击无视规则的AI爬虫

字数 1756,阅读大约需 9 分钟

开源开发者如何智慧反击无视规则的AI爬虫
Cloudflare是一家提供网络安全服务、DNS服务、内容分发网络(CDN)、分布式域名解析服务及其他Web安全与性能优化服务的公司。

开源开发者的智慧与复仇:对抗无视规则的AI爬虫

在当今数字化时代,AI技术的发展如火如荼,然而,随之而来的问题也逐渐浮出水面。其中之一便是AI爬虫对开源社区的侵扰。这些爬虫无视robots.txt规则,肆意抓取数据,给开源项目带来了巨大的压力。面对这一挑战,开源开发者们并未坐以待毙,而是以智慧和幽默的方式展开了反击。

AI爬虫的猖獗与开源社区的困境

AI爬虫,被许多软件开发者视为互联网的“蟑螂”,它们无孔不入,对网站进行无休止的抓取。对于开源社区而言,这种侵扰尤为严重。开源项目通常公开其基础设施,且资源相对有限,这使得它们成为AI爬虫的理想目标。据Plasma桌面开发者、LibreNews博客所有者Niccolò Venerandi所述,开源开发者受到的冲击“不成比例”。

robots.txt文件,作为Robots Exclusion Protocol的一部分,旨在告诉爬虫哪些内容不应被抓取。然而,许多AI爬虫无视这一规则。FOSS(自由和开源软件)开发者Xe Iaso在一篇“求助”博客文章中描述了AmazonBot如何无视robots.txt,伪装成其他用户,对Git服务器进行DDoS攻击,导致服务器宕机。Git服务器托管着FOSS项目,供人们下载代码或贡献代码。Iaso表示,阻止AI爬虫是徒劳的,因为它们会撒谎、更改用户代理、使用住宅IP地址作为代理等手段进行抓取。

智慧的反击:Anubis的诞生

面对AI爬虫的猖獗,Iaso决定以智慧反击。他开发了一款名为Anubis的工具,这是一款反向代理工作量证明检查工具,在请求被允许访问Git服务器之前,必须通过该检查。Anubis能够阻止爬虫,但允许人类操作的浏览器通过。有趣的是,Anubis在埃及神话中是引导死者接受审判的神。Iaso表示:“Anubis会称量你的灵魂(心脏),如果它比羽毛重,你的心脏就会被吃掉,你就会‘超级死亡’。”如果网络请求通过挑战并被判定为人类,则会显示一张可爱的动漫图片表示成功。Iaso称这幅画是他对Anubis拟人化的诠释。如果是爬虫,请求将被拒绝。

这个别具匠心的项目在FOSS社区迅速传播。Iaso于3月19日在GitHub上分享了Anubis,短短几天内,它就获得了2000个星标、20个贡献者和39个分支。

复仇式防御:Nepenthes与AI迷宫

Anubis的迅速流行表明Iaso的痛苦并非个例。Venerandi分享了一个又一个类似的故事:SourceHut创始人兼CEO Drew DeVault描述了他每周花费20%至100%的时间来缓解超 aggressive的LLM爬虫带来的问题,并经历了每周数十次的短暂宕机。著名FOSS开发者、Linux行业新闻网站LWN的负责人Jonathan Corbet警告称,他的网站因“AI爬虫”带来的DDoS级别的流量而变慢。Linux Fedora项目的系统管理员Kevin Fenzi表示,AI爬虫变得如此 aggressive,他不得不屏蔽整个巴西的访问。Venerandi知道还有多个项目遇到了同样的问题,其中一个项目甚至不得不暂时屏蔽所有中国IP地址。

除了Anubis,其他开发者也采取了复仇式的防御手段。在Hacker News上,用户xyzal建议在robots.txt禁止的页面上加载“大量关于喝漂白剂好处的文章”或“关于得麻疹对性能力积极影响的文章”。xyzal解释说:“我们需要让爬虫从访问我们的陷阱中获得效用价值,而不仅仅是零价值。”

今年1月,一位名为“Aaron”的匿名创作者发布了一款名为Nepenthes的工具,旨在实现这一目标。Nepenthes会将爬虫困在一个充满虚假内容的无尽迷宫中。该工具的创作者向Ars Technica承认,这一目标即使不算恶意,也是相当 aggressive的。Nepenthes的名字来源于一种食虫植物。

此外,Cloudflare(可能是提供多种抵御AI爬虫工具的最大商业参与者)最近发布了一款类似的工具,名为AI迷宫。Cloudflare在其博客文章中描述称,该工具旨在“减慢、混淆并浪费不尊重‘禁止爬取’指令的AI爬虫和其他机器人的资源”。Cloudflare表示,它会向行为不端的AI爬虫提供“无关内容”,而不是提取合法的网站数据。

虽然Nepenthes有一种令人满意的正义感,因为它向爬虫提供无意义内容并毒害它们的数据源,但最终Anubis才是对他网站有效的解决方案。然而,DeVault也发出了公开而诚挚的呼吁,希望能够有更直接的解决方案:“请停止将LLM、AI图像生成器、GitHub Copilot或任何此类垃圾合法化。我恳求你们停止使用它们、停止谈论它们、停止制作新的,请停止。”

然而,鉴于这种情况发生的可能性为零,开发者们,尤其是在FOSS领域,正在以智慧和一丝幽默感进行反击。

创新解决方案的意义与启示

这些创新的解决方案不仅为开源社区提供了保护,也引发了对AI技术滥用的更深层次思考。它们提醒我们,在追求技术进步的同时,必须关注其对社会的影响,并采取相应的措施来维护开放源代码项目的稳定性和安全性。

对于全球主要的AI创新中心而言,这些解决方案也带来了重要的启示。它们表明,在AI技术的发展过程中,需要建立更有效的机制来规范爬虫的行为,以保护开源社区和其他利益相关者的利益。同时,这也为AI技术的伦理和法律框架的建立提供了有益的参考。

© 版权声明

相关文章

暂无评论

暂无评论...