开源开发者如何智慧反击无视规则的AI爬虫

字数 1756，阅读大约需 9 分钟

开源开发者的智慧与复仇：对抗无视规则的AI爬虫

在当今数字化时代，AI技术的发展如火如荼，然而，随之而来的问题也逐渐浮出水面。其中之一便是AI爬虫对开源社区的侵扰。这些爬虫无视robots.txt规则，肆意抓取数据，给开源项目带来了巨大的压力。面对这一挑战，开源开发者们并未坐以待毙，而是以智慧和幽默的方式展开了反击。

AI爬虫的猖獗与开源社区的困境

AI爬虫，被许多软件开发者视为互联网的“蟑螂”，它们无孔不入，对网站进行无休止的抓取。对于开源社区而言，这种侵扰尤为严重。开源项目通常公开其基础设施，且资源相对有限，这使得它们成为AI爬虫的理想目标。据Plasma桌面开发者、LibreNews博客所有者Niccolò Venerandi所述，开源开发者受到的冲击“不成比例”。

robots.txt文件，作为Robots Exclusion Protocol的一部分，旨在告诉爬虫哪些内容不应被抓取。然而，许多AI爬虫无视这一规则。FOSS（自由和开源软件）开发者Xe Iaso在一篇“求助”博客文章中描述了AmazonBot如何无视robots.txt，伪装成其他用户，对Git服务器进行DDoS攻击，导致服务器宕机。Git服务器托管着FOSS项目，供人们下载代码或贡献代码。Iaso表示，阻止AI爬虫是徒劳的，因为它们会撒谎、更改用户代理、使用住宅IP地址作为代理等手段进行抓取。

智慧的反击：Anubis的诞生

面对AI爬虫的猖獗，Iaso决定以智慧反击。他开发了一款名为Anubis的工具，这是一款反向代理工作量证明检查工具，在请求被允许访问Git服务器之前，必须通过该检查。Anubis能够阻止爬虫，但允许人类操作的浏览器通过。有趣的是，Anubis在埃及神话中是引导死者接受审判的神。Iaso表示：“Anubis会称量你的灵魂（心脏），如果它比羽毛重，你的心脏就会被吃掉，你就会‘超级死亡’。”如果网络请求通过挑战并被判定为人类，则会显示一张可爱的动漫图片表示成功。Iaso称这幅画是他对Anubis拟人化的诠释。如果是爬虫，请求将被拒绝。

这个别具匠心的项目在FOSS社区迅速传播。Iaso于3月19日在GitHub上分享了Anubis，短短几天内，它就获得了2000个星标、20个贡献者和39个分支。

复仇式防御：Nepenthes与AI迷宫

Anubis的迅速流行表明Iaso的痛苦并非个例。Venerandi分享了一个又一个类似的故事：SourceHut创始人兼CEO Drew DeVault描述了他每周花费20%至100%的时间来缓解超 aggressive的LLM爬虫带来的问题，并经历了每周数十次的短暂宕机。著名FOSS开发者、Linux行业新闻网站LWN的负责人Jonathan Corbet警告称，他的网站因“AI爬虫”带来的DDoS级别的流量而变慢。Linux Fedora项目的系统管理员Kevin Fenzi表示，AI爬虫变得如此 aggressive，他不得不屏蔽整个巴西的访问。Venerandi知道还有多个项目遇到了同样的问题，其中一个项目甚至不得不暂时屏蔽所有中国IP地址。

除了Anubis，其他开发者也采取了复仇式的防御手段。在Hacker News上，用户xyzal建议在robots.txt禁止的页面上加载“大量关于喝漂白剂好处的文章”或“关于得麻疹对性能力积极影响的文章”。xyzal解释说：“我们需要让爬虫从访问我们的陷阱中获得负效用价值，而不仅仅是零价值。”

今年1月，一位名为“Aaron”的匿名创作者发布了一款名为Nepenthes的工具，旨在实现这一目标。Nepenthes会将爬虫困在一个充满虚假内容的无尽迷宫中。该工具的创作者向Ars Technica承认，这一目标即使不算恶意，也是相当 aggressive的。Nepenthes的名字来源于一种食虫植物。

此外，Cloudflare（可能是提供多种抵御AI爬虫工具的最大商业参与者）最近发布了一款类似的工具，名为AI迷宫。Cloudflare在其博客文章中描述称，该工具旨在“减慢、混淆并浪费不尊重‘禁止爬取’指令的AI爬虫和其他机器人的资源”。Cloudflare表示，它会向行为不端的AI爬虫提供“无关内容”，而不是提取合法的网站数据。

虽然Nepenthes有一种令人满意的正义感，因为它向爬虫提供无意义内容并毒害它们的数据源，但最终Anubis才是对他网站有效的解决方案。然而，DeVault也发出了公开而诚挚的呼吁，希望能够有更直接的解决方案：“请停止将LLM、AI图像生成器、GitHub Copilot或任何此类垃圾合法化。我恳求你们停止使用它们、停止谈论它们、停止制作新的，请停止。”

然而，鉴于这种情况发生的可能性为零，开发者们，尤其是在FOSS领域，正在以智慧和一丝幽默感进行反击。

创新解决方案的意义与启示

这些创新的解决方案不仅为开源社区提供了保护，也引发了对AI技术滥用的更深层次思考。它们提醒我们，在追求技术进步的同时，必须关注其对社会的影响，并采取相应的措施来维护开放源代码项目的稳定性和安全性。

对于全球主要的AI创新中心而言，这些解决方案也带来了重要的启示。它们表明，在AI技术的发展过程中，需要建立更有效的机制来规范爬虫的行为，以保护开源社区和其他利益相关者的利益。同时，这也为AI技术的伦理和法律框架的建立提供了有益的参考。

# AI快讯

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...