揭秘AI爬虫：Wikimedia Commons的挑战与应对

字数 1007，阅读大约需 6 分钟

AI爬虫对Wikimedia Commons的影响：技术、商业动机与应对策略

自2024年1月以来，Wikimedia Commons的带宽消耗激增了50%，这一现象主要归因于AI模型训练需求驱动的数据密集型爬虫活动，而非人类用户的增长。这些爬虫通过访问较少被浏览的内容，增加了Wikimedia的成本负担，对其基础设施构成了具体挑战。

带宽消耗激增背后的原因

Wikimedia Commons是一个免费的多媒体文件存储库，提供开放许可证或公共领域的图像、视频和音频文件。根据Wikimedia的分析，近三分之二（65%）的“昂贵”流量来自爬虫，而这些爬虫仅贡献了35%的总页面浏览量。这种差异源于频繁访问的内容通常存储在用户附近的缓存中，而较少访问的内容则存储在更远的“核心数据中心”，从该中心提供内容的成本更高。而爬虫往往会寻找这些较少被访问的内容，导致资源消耗增加。

对Wikimedia基础设施的挑战

由于爬虫的大量请求，Wikimedia基金会的网站可靠性团队不得不花费大量时间和资源来阻止爬虫，以避免对普通用户造成干扰。此外，云计算成本也是基金会面临的一大挑战。这一现象反映了一个快速增长的趋势，即AI爬虫对开放互联网的威胁。

对开放互联网的长远影响

开源基础设施尤其受到AI爬虫的影响。软件工程师和开源倡导者Drew DeVault指出，AI爬虫忽视了旨在阻止自动流量的“robots.txt”文件。同时，“务实工程师”Gergely Orosz也抱怨称，来自Meta等公司的AI爬虫增加了其项目的带宽需求。尽管开发者正在以“聪明和复仇”的方式进行反击，但这场“猫捉老鼠”的游戏可能会迫使许多出版商躲在登录和付费墙后面，对当今所有使用网络的人造成不利影响。

专家观点与建议

在采访中，Drew DeVault表示：“我们需要找到一种平衡，既能满足AI模型训练的需求，又不会对开放互联网造成破坏。这可能需要制定新的规则和标准，以规范爬虫的行为。”Gergely Orosz则建议：“开发者可以采取一些技术措施，如使用反爬虫技术或限制爬虫的访问频率，以减轻爬虫对资源的消耗。”

解决方案的探索与评估

一些科技公司正在努力解决这个问题。例如，Cloudflare最近推出了AI Labyrinth，它使用AI生成的内容来减缓爬虫的速度。然而，这仍然是一个不断演变的问题，需要持续的创新和合作来找到有效的解决方案。

# AI快讯

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...