揭秘AI爬虫:Wikimedia Commons的挑战与应对

字数 1007,阅读大约需 6 分钟

揭秘AI爬虫:Wikimedia Commons的挑战与应对
Wikimedia Commons是一个免费的多媒体文件存储库,提供开放许可证或公共领域的图像、视频和音频文件。

AI爬虫对Wikimedia Commons的影响:技术、商业动机与应对策略

自2024年1月以来,Wikimedia Commons的带宽消耗激增了50%,这一现象主要归因于AI模型训练需求驱动的数据密集型爬虫活动,而非人类用户的增长。这些爬虫通过访问较少被浏览的内容,增加了Wikimedia的成本负担,对其基础设施构成了具体挑战。

带宽消耗激增背后的原因

Wikimedia Commons是一个免费的多媒体文件存储库,提供开放许可证或公共领域的图像、视频和音频文件。根据Wikimedia的分析,近三分之二(65%)的“昂贵”流量来自爬虫,而这些爬虫仅贡献了35%的总页面浏览量。这种差异源于频繁访问的内容通常存储在用户附近的缓存中,而较少访问的内容则存储在更远的“核心数据中心”,从该中心提供内容的成本更高。而爬虫往往会寻找这些较少被访问的内容,导致资源消耗增加。

对Wikimedia基础设施的挑战

由于爬虫的大量请求,Wikimedia基金会的网站可靠性团队不得不花费大量时间和资源来阻止爬虫,以避免对普通用户造成干扰。此外,云计算成本也是基金会面临的一大挑战。这一现象反映了一个快速增长的趋势,即AI爬虫对开放互联网的威胁。

对开放互联网的长远影响

开源基础设施尤其受到AI爬虫的影响。软件工程师和开源倡导者Drew DeVault指出,AI爬虫忽视了旨在阻止自动流量的“robots.txt”文件。同时,“务实工程师”Gergely Orosz也抱怨称,来自Meta等公司的AI爬虫增加了其项目的带宽需求。尽管开发者正在以“聪明和复仇”的方式进行反击,但这场“猫捉老鼠”的游戏可能会迫使许多出版商躲在登录和付费墙后面,对当今所有使用网络的人造成不利影响。

专家观点与建议

在采访中,Drew DeVault表示:“我们需要找到一种平衡,既能满足AI模型训练的需求,又不会对开放互联网造成破坏。这可能需要制定新的规则和标准,以规范爬虫的行为。”Gergely Orosz则建议:“开发者可以采取一些技术措施,如使用反爬虫技术或限制爬虫的访问频率,以减轻爬虫对资源的消耗。”

解决方案的探索与评估

一些科技公司正在努力解决这个问题。例如,Cloudflare最近推出了AI Labyrinth,它使用AI生成的内容来减缓爬虫的速度。然而,这仍然是一个不断演变的问题,需要持续的创新和合作来找到有效的解决方案。

© 版权声明

相关文章

暂无评论

暂无评论...