微软探索AI训练数据贡献者信用机制：回应IP争议与推动数据尊严

字数 1202，阅读大约需 7 分钟

微软探索AI训练数据贡献者信用机制：回应知识产权争议与推动数据尊严

微软近期启动了一项名为‘训练时间出处’(training-time provenance)的研究项目，旨在探索为AI训练数据贡献者提供信用的新方法。这一举措直击当前AI领域关于知识产权(IP)争议的核心问题，试图证明模型可以以一种能够‘有效且有用’地评估特定数据（如照片和书籍）对其输出影响的方式进行训练。

项目背景与动机

在当前的神经网络架构中，生成内容的来源往往不透明，这引发了诸多争议。微软的研究项目正是为了改变这一现状，通过在训练过程中追踪数据的来源和影响，为数据贡献者提供激励、认可，甚至可能的报酬。这一理念与Jaron Lanier提出的‘数据尊严’概念相呼应，即在AI生成内容时，追溯并认可那些对输出产生独特和重要影响的贡献者。

法律挑战与行业现状

AI生成的文本、代码、图像、视频和歌曲等内容正处于多起IP诉讼的中心。许多AI公司在训练模型时使用了来自公共网站的大量数据，其中一些是受版权保护的。这些公司通常辩称，合理使用原则保护了他们的数据抓取和训练行为。然而，创意工作者——从艺术家到程序员再到作家——普遍持不同意见。

行业探索与比较

在补偿数据所有者方面，一些公司已经开始进行探索。AI模型开发商Bria声称根据数据所有者的‘总体影响’‘程序化’地进行补偿。Adobe和Shutterstock也向数据集贡献者提供定期支付，尽管具体的支付金额往往不透明。然而，除了与出版商、平台和数据经纪人签订许可协议外，很少有大型实验室建立了针对个人贡献者的支付计划。相反，他们提供了让版权所有者‘选择退出’训练的途径。但其中一些选择退出的过程繁琐，且仅适用于未来的模型，而不包括之前已经训练过的模型。

# AI快讯 # 微软

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

微软探索AI训练数据贡献者信用机制：回应IP争议与推动数据尊严

微软探索AI训练数据贡献者信用机制：回应知识产权争议与推动数据尊严

项目背景与动机

法律挑战与行业现状

行业探索与比较

Anthropic与Brave Search合作：革新AI聊天机器人的网络搜索功能

Meta在Instagram测试AI生成评论：社交媒体的未来趋势与挑战

相关文章

暂无评论