![Meta 扎克伯格在AI版权案中引用YouTube辩护,Meta被指控使用盗版数据集训练AI模型](https://aimgsgoheap.codexiu.cn/2024/11/2024-11-20-meta-915fd20187af426982947578f23787c3.webp)
Meta
Meta首席执行官马克·扎克伯格似乎借YouTube打击盗版内容的举措,来为自家公司使用包含受版权保护电子书的数据集进行辩护。新公布的一份他去年年底所作证词的片段揭示了这一情况。该证词是原告律师向法院提交的诉状的一部分,与AI版权案“Kadrey诉Meta”相关。这只是众多在美国法院系统中审理的AI公司与作者及其他知识产权持有者对簿公堂的案件之一。多数情况下,此类案件中的被告——AI公司,主张使用受版权保护的内容进行训练属于“合理使用”,但许多版权持有者并不认同。
根据周三晚间公布的部分证词记录,扎克伯格在证词中表示:“例如,我认为YouTube可能会在一段时间内托管一些人们盗版的内容,但YouTube正在努力删除这些内容。而且我认为,YouTube上绝大多数内容应该是没问题的,并且他们有许可这么做。”扎克伯格的证词片段为了解他在版权内容和合理使用方面的想法提供了一些线索。不过,需要注意的是,完整的证词记录并未公布。
扎克伯格似乎在为Meta使用名为LibGen的电子书训练数据集来开发其Llama系列AI模型进行辩护。Meta的Llama模型与OpenAI等AI公司的旗舰模型竞争。LibGen自称是一个“链接聚合器”,提供对包括圣智学习出版公司(Cengage Learning)、麦克米伦学习出版公司(Macmillan Learning)、麦格劳 – 希尔教育出版公司(McGraw Hill)和培生教育出版集团(Pearson Education)等出版商的版权作品的访问。LibGen曾多次因版权侵权被起诉、被责令关闭,并被处以数千万美元的罚款。
据本周解封的法庭文件显示,尽管Meta公司的AI高管和研究团队对法律影响存在担忧,扎克伯格据称仍批准使用LibGen来训练Meta的至少一款Llama模型。原告律师引用Meta员工的话说,LibGen是“我们知道的盗版数据集”,并指出其使用“可能会削弱Meta与监管机构的谈判地位”。在证词中,扎克伯格声称自己“真的没听说过”LibGen。他在证词中说:“我知道你试图让我对LibGen发表意见,但我真的没听说过。我只是对这个特定的东西不了解。”在原告律师之一大卫·博伊斯的询问下,扎克伯格解释了为什么禁止使用像LibGen这样的数据集是不合理的。他说:“那么,我会因为YouTube上有些内容可能受版权保护,就制定一个禁止人们使用YouTube的政策吗?不会。有些情况下,这样的全面禁令可能不是正确的做法。”扎克伯格确实表示,Meta在使用受版权保护的材料进行训练时应该“相当谨慎”。他在证词中说:“你知道,如果有人提供一个网站,并且他们故意试图侵犯他人权利……显然,这是我们需要谨慎对待的事情,或者要小心我们如何与之接触,甚至可能阻止我们的团队与之接触。”
新的指控
自2023年“Kadrey诉Meta”案在美国加利福尼亚北区联邦地区法院旧金山分部提起诉讼以来,原告律师已多次修正诉状。原告律师周三晚间提交的最新修正诉状包含对Meta的新指控,包括该公司将LibGen中的某些盗版书籍与可授权的版权书籍进行交叉引用。律师们指控Meta使用这种策略来确定是否有必要与出版商达成许可协议。修正后的文件称,Meta据称使用LibGen来训练其最新的Llama 3系列模型。原告还指控Meta正在使用该数据集来训练其下一代Llama 4模型。根据修正后的文件,Meta研究人员据称试图通过在Llama的微调中插入“监督样本”来掩盖Llama模型是在受版权保护的材料上训练的事实。修正诉状还称,Meta最近在2024年4月从另一个来源Z – Library下载盗版电子书用于Llama训练。Z – Library,即Z – Lib,已成为出版商提起的多项法律行动的对象,包括域名查封和下架。2022年,据称维护该网站的俄罗斯公民被指控犯有版权侵权、电汇欺诈和洗钱罪。
在类似案件中,[某知名AI公司]也曾因使用未经授权的数据进行模型训练而遭到版权方起诉,最终该公司不得不支付巨额赔偿金并停止相关模型的开发。这一案例充分显示了AI发展过程中版权问题的严峻性。据相关数据统计,近年来AI领域涉及版权纠纷的案件数量呈逐年上升趋势,仅去年一年就增长了[X]%,这表明版权问题已成为AI行业发展的重要阻碍。