法庭文件揭露:Meta在AI训练中版权内容使用的内部讨论

字数 904,阅读大约需 5 分钟

法庭文件揭露:Meta在AI训练中版权内容使用的内部讨论
Meta,原名Facebook公司,是一家致力于开发社交技术以连接人与信息的全球性科技公司。通过旗下一系列产品和服务如Facebook、Instagram和WhatsApp,Meta为数十亿用户提供沟通、表达及商业服务的平台。

法庭文件揭示Meta内部关于使用版权内容进行AI训练的讨论

内部沟通与决策过程

最近在Kadrey诉Meta案中解封的法庭文件,揭示了Meta内部关于使用版权内容训练其AI模型的讨论。这些讨论涉及Meta AI研究团队的关键人物,并显示了一个优先考虑快速发展而非遵守知识产权法的策略。

2023年2月的一封引人注目的邮件中,Meta研究员Xavier Martinet提议在未经授权的情况下获取书籍用于训练目的,倡导“请求原谅,而非许可”的方法。该策略符合Meta在生成性AI领域降低风险规避的更广泛目标。Martinet建议以零售价格购买电子书来编译训练数据集,绕过与个别出版商的许可协议。尽管同事提出了潜在法律挑战的担忧,但Martinet仍然不为所动,认为许多初创公司可能已经在使用盗版书籍进行训练。

Meta Llama模型研究团队的高级经理Melanie Kambadur也参与了这些讨论。她承认在使用公开可用数据时需要许可或批准,但指出Meta的法律团队在授予此类批准时变得不那么保守。Kambadur的声明表明,Meta增加的资源——包括财务支持、法律专业知识和业务发展支持——使公司能够采取更积极的方式获取AI训练数据。

探索有争议的数据来源和竞争压力

法庭文件进一步揭示,Meta考虑使用Libgen(一个臭名昭著的链接聚合器,提供对版权作品的访问)作为许可数据源的替代方案。尽管Libgen因侵犯版权而面临法律斗争和罚款的历史,但Meta内部有人认为不使用此类数据可能会损害公司在AI竞赛中的竞争力。Meta的产品管理总监Sony Theakanath强调了Libgen在实现各种AI基准的最新性能方面的重要性。为了减轻法律风险,Theakanath提出了一些策略,例如删除标记为盗版的数据,并避免公开披露对Libgen的使用。

此外,这些文件暗示Meta可能通过模拟类似Pushshift的第三方应用的行为,抓取了Reddit的数据用于模型训练。这一发现正值Reddit在2023年4月宣布向AI公司收取访问其数据的费用之际。获取更多训练数据的压力促使Meta重新考虑过去的决定,例如从其数据集中排除Quora内容、许可书籍和科学文章。Meta生成性AI组织的产品管理总监Chaya Nayak强调,Meta的第一方数据源(包括Facebook和Instagram帖子)不足以支持其AI模型的发展,需要扩大训练数据池。

这些讨论和决策突显了AI行业中创新、竞争和法律合规之间的复杂相互作用。随着Kadrey诉Meta案的进展,它很可能成为确定合理使用界限和AI公司在尊重知识产权方面的责任的关键先例。

© 版权声明

相关文章

暂无评论

暂无评论...