微软探索AI训练数据贡献者信用机制:回应IP争议与推动数据尊严

字数 1202,阅读大约需 7 分钟

微软探索AI训练数据贡献者信用机制:回应IP争议与推动数据尊严
微软(Microsoft)是一家全球领先的平台和技术公司,其业务涵盖了操作系统、办公软件、云计算服务以及人工智能等多个领域。

微软探索AI训练数据贡献者信用机制:回应知识产权争议与推动数据尊严

微软近期启动了一项名为‘训练时间出处’(training-time provenance)的研究项目,旨在探索为AI训练数据贡献者提供信用的新方法。这一举措直击当前AI领域关于知识产权(IP)争议的核心问题,试图证明模型可以以一种能够‘有效且有用’地评估特定数据(如照片和书籍)对其输出影响的方式进行训练。

项目背景与动机

在当前的神经网络架构中,生成内容的来源往往不透明,这引发了诸多争议。微软的研究项目正是为了改变这一现状,通过在训练过程中追踪数据的来源和影响,为数据贡献者提供激励、认可,甚至可能的报酬。这一理念与Jaron Lanier提出的‘数据尊严’概念相呼应,即在AI生成内容时,追溯并认可那些对输出产生独特和重要影响的贡献者。

法律挑战与行业现状

AI生成的文本、代码、图像、视频和歌曲等内容正处于多起IP诉讼的中心。许多AI公司在训练模型时使用了来自公共网站的大量数据,其中一些是受版权保护的。这些公司通常辩称,合理使用原则保护了他们的数据抓取和训练行为。然而,创意工作者——从艺术家到程序员再到作家——普遍持不同意见。

微软自身也面临至少两起来自版权所有者的诉讼。去年12月,《纽约时报》起诉微软及其合作伙伴OpenAI,指控两家公司通过部署基于数百万篇《纽约时报》文章训练的模型,侵犯了《纽约时报》的版权。此外,一些软件开发者也对微软提起诉讼,声称微软的GitHub Copilot AI编码助手非法使用了他们的受保护作品进行训练。

行业探索与比较

在补偿数据所有者方面,一些公司已经开始进行探索。AI模型开发商Bria声称根据数据所有者的‘总体影响’‘程序化’地进行补偿。Adobe和Shutterstock也向数据集贡献者提供定期支付,尽管具体的支付金额往往不透明。然而,除了与出版商、平台和数据经纪人签订许可协议外,很少有大型实验室建立了针对个人贡献者的支付计划。相反,他们提供了让版权所有者‘选择退出’训练的途径。但其中一些选择退出的过程繁琐,且仅适用于未来的模型,而不包括之前已经训练过的模型。

© 版权声明

相关文章

暂无评论

暂无评论...