法庭文件揭露：Meta在AI训练中版权内容使用的内部讨论

字数 904，阅读大约需 5 分钟

法庭文件揭示Meta内部关于使用版权内容进行AI训练的讨论

内部沟通与决策过程

最近在Kadrey诉Meta案中解封的法庭文件，揭示了Meta内部关于使用版权内容训练其AI模型的讨论。这些讨论涉及Meta AI研究团队的关键人物，并显示了一个优先考虑快速发展而非遵守知识产权法的策略。

2023年2月的一封引人注目的邮件中，Meta研究员Xavier Martinet提议在未经授权的情况下获取书籍用于训练目的，倡导“请求原谅，而非许可”的方法。该策略符合Meta在生成性AI领域降低风险规避的更广泛目标。Martinet建议以零售价格购买电子书来编译训练数据集，绕过与个别出版商的许可协议。尽管同事提出了潜在法律挑战的担忧，但Martinet仍然不为所动，认为许多初创公司可能已经在使用盗版书籍进行训练。

Meta Llama模型研究团队的高级经理Melanie Kambadur也参与了这些讨论。她承认在使用公开可用数据时需要许可或批准，但指出Meta的法律团队在授予此类批准时变得不那么保守。Kambadur的声明表明，Meta增加的资源——包括财务支持、法律专业知识和业务发展支持——使公司能够采取更积极的方式获取AI训练数据。

探索有争议的数据来源和竞争压力

法庭文件进一步揭示，Meta考虑使用Libgen（一个臭名昭著的链接聚合器，提供对版权作品的访问）作为许可数据源的替代方案。尽管Libgen因侵犯版权而面临法律斗争和罚款的历史，但Meta内部有人认为不使用此类数据可能会损害公司在AI竞赛中的竞争力。Meta的产品管理总监Sony Theakanath强调了Libgen在实现各种AI基准的最新性能方面的重要性。为了减轻法律风险，Theakanath提出了一些策略，例如删除标记为盗版的数据，并避免公开披露对Libgen的使用。

此外，这些文件暗示Meta可能通过模拟类似Pushshift的第三方应用的行为，抓取了Reddit的数据用于模型训练。这一发现正值Reddit在2023年4月宣布向AI公司收取访问其数据的费用之际。获取更多训练数据的压力促使Meta重新考虑过去的决定，例如从其数据集中排除Quora内容、许可书籍和科学文章。Meta生成性AI组织的产品管理总监Chaya Nayak强调，Meta的第一方数据源（包括Facebook和Instagram帖子）不足以支持其AI模型的发展，需要扩大训练数据池。

这些讨论和决策突显了AI行业中创新、竞争和法律合规之间的复杂相互作用。随着Kadrey诉Meta案的进展，它很可能成为确定合理使用界限和AI公司在尊重知识产权方面的责任的关键先例。

# AI快讯 # meta

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

法庭文件揭露：Meta在AI训练中版权内容使用的内部讨论

法庭文件揭示Meta内部关于使用版权内容进行AI训练的讨论

内部沟通与决策过程

探索有争议的数据来源和竞争压力

抖音副总裁李亮澄清：字节跳动AI团队稳定发展，传闻不实

iOS 18.4优先通知功能：Apple Intelligence驱动的智能革新

相关文章

暂无评论