Meta Llama 3 深陷版权泥潭,扎克伯格的赶超之梦何去何从

Meta Llama 3 深陷版权泥潭,扎克伯格的赶超之梦何去何从

Meta

近日,在Meta的一起AI版权案件Kadrey v. Meta中,法院解封的内部消息显示,Meta领导AI工作的高管和研究人员在开发Llama 3时,一心想要超越OpenAI的GPT-4。Meta的生成式AI副总裁Ahmad Al-Dahle在2023年10月给研究员Hugo Touvron的消息中称:“说实话……我们的目标必须是GPT-4。我们即将有64k个GPU!我们需要学习如何构建前沿并赢得这场竞赛。”虽然Meta发布开源AI模型,但公司的AI领导者更专注于击败像Anthropic和OpenAI这样不公开模型权重的竞争对手。

在消息交流中,Meta的AI负责人多次提到获取正确数据以训练Llama的积极性,甚至有高管表示“Llama 3是我唯一关心的”。然而,检察官指控Meta高管在急于推出AI模型的过程中偶尔会走捷径,在训练过程中使用了版权书籍。Touvron曾在一条消息中指出,用于Llama 2的数据集组合“很糟糕”,并讨论了Meta如何使用更好的数据源组合来改进Llama 3。随后,Touvron和Al-Dahle还讨论了清理使用LibGen数据集的路径,该数据集包含来自Cengage Learning、Macmillan Learning、McGraw Hill和Pearson Education的版权作品。

Meta首席执行官马克·扎克伯格此前曾表示,他正在努力缩小Llama的AI模型与OpenAI、谷歌等公司的封闭模型之间的性能差距。在2024年7月的一封信中,扎克伯格称:“今年,Llama 3在一些领域与最先进的模型具有竞争力并处于领先地位。从明年开始,我们预计未来的Llama模型将成为行业内最先进的。”2024年4月Meta最终发布Llama 3时,该开源AI模型与谷歌、OpenAI和Anthropic的领先封闭模型具有竞争力,并优于Mistral的开源选项。但Meta用于训练其模型的数据正面临多起诉讼的审查。

© 版权声明

相关文章

暂无评论

暂无评论...