马克·扎克伯格授权Meta Llama团队使用侵权数据集训练？

Meta

在Kadrey v. Meta这起版权诉讼案中，原告方律师指控Meta公司CEO马克·扎克伯格批准了公司的Llama AI模型团队使用一个包含盗版电子书和文章的数据集LibGen进行训练。

Llama模型是Meta公司推出的人工智能模型，于2023年2月公开发布，包括70亿、130亿、330亿、650亿这四种参数规模，旨在推动LLM的小型化和平民化研究。而LibGen是一个自称“链接聚合器”的网站，提供来自包括圣智学习出版公司、麦克米伦学习出版公司、麦格劳·希尔教育出版公司和培生教育出版公司等出版商的版权作品访问权限，该网站已多次因版权侵权被起诉、被要求关闭并被罚款数千万美元。

根据原告律师转述Meta的证词，尽管Meta的AI执行团队和其他人员对此表示担忧，但扎克伯格仍批准使用LibGen来训练至少一个Meta的Llama模型。文件中引用Meta员工的话，称LibGen是“我们知道被盗版的数据集”，并指出其使用“可能会破坏Meta与监管机构的谈判地位”。文件还引用了一份给Meta AI决策者的备忘录，其中提到在“上报给MZ（马克·扎克伯格）”后，Meta的AI团队“被批准使用LibGen”。

周三提交的文件还包含新的指控，如Meta可能试图通过剥离LibGen数据的归属来掩盖其涉嫌的侵权行为。原告律师称，Meta的Llama研究团队工程师Nikolay Bashlykov编写了一个脚本，用于从LibGen的电子书中删除版权信息，包括“版权”和“致谢”等字样。此外，Meta还涉嫌从用于Llama训练的科学期刊文章中剥离版权标记和“源元数据”。原告律师在文件中写道：“这一发现表明，Meta剥离版权信息不仅是为了训练目的，也是为了掩盖其版权侵权行为，因为剥离版权作品……可以防止Llama输出可能会提醒Llama用户和公众注意Meta侵权的版权信息。”。

根据最新的文件，Meta在证词中还透露其对LibGen进行了种子下载，这一举动让一些Meta研究工程师感到犹豫。原告律师指控Meta通过种子下载LibGen并传播其内容，实际上参与了另一种形式的版权侵权。Meta还试图通过减少上传文件的数量来掩盖其活动，文件称，Meta的生成式AI负责人Ahmad Al-Dahle为种子下载LibGen“扫清了道路”，无视了Bashlykov关于这样做“在法律上可能不行”的担忧。

目前，针对Meta的案件尚未有定论，目前仅涉及Meta最早的Llama模型，而不是其最近发布的版本。如果法院被Meta的合理使用论点所说服，可能会做出对Meta有利的裁决。但正如审理此案的法官Vince Chhabria在周三拒绝Meta要求大量删节文件的命令中指出的那样，这些指控对Meta来说并不是好兆头。

# AI头条 # ai

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

马克·扎克伯格授权Meta Llama团队使用侵权数据集训练？

谷歌AI团队大整合，加速研发背后的秘密

图像生成StableDiffusion网页端神器，助力推动图像生成技术在更多领域的应用

相关文章

暂无评论