合成数据：AI的救星还是隐患？

Writer

合成数据在AI领域的机遇与挑战

在当今AI飞速发展的时代，数据的重要性不言而喻。AI系统本质上属于统计机器，它需要依靠大量带有标注（annotations）的数据进行训练，通过学习这些数据里的模式来做出预测。比如说，邮件里‘to whom’通常会在‘it may concern’之前这样的规律，就是靠学习大量标注数据得来的。而数据标注这一环节已经催生出庞大的市场，据Dimension Market Research估计，当下其价值高达83820万美元，且未来10年有望达到103.4亿美元，众多大小公司都依赖数据标注公司的员工来为AI训练集创建标签。
不过，传统依赖人工标注数据的方式正面临诸多困境。一方面，从人文角度来看，部分标注工作者薪资待遇不佳，像在发展中国家的标注员平均每小时仅有几美元报酬，还没有福利及后续工作保障。另一方面，从实际操作层面来讲，人工标注速度有限，标注员本身存在的偏见会体现在标注结果中，进而影响基于这些标注训练的模型，而且他们也可能出现标注错误或者被标注指令误导的情况。此外，获取数据的成本越来越高，像Shutterstock向AI供应商收取数千万美元以访问其档案资料，Reddit通过向谷歌、OpenAI等授权数据获利数亿美元。更重要的是，数据越来越难获取了，多数模型依靠大量公共数据训练，但数据所有者因担心数据被剽窃或者无法获得相应的功劳与归属权，开始限制数据访问，近期有研究发现，全球前1000名网站中超过35%已经屏蔽了OpenAI的网络爬虫，约25%来自‘高质量’数据源的数据已被限制用于模型训练集，按照Epoch AI的预测，如果当前这种访问受限趋势持续，到2026 – 2032年间，开发者们将面临没有数据来训练生成式AI模型的局面。

在此背景下，合成数据似乎成为了解决这些问题的良方。就如同华盛顿大学研究新兴技术伦理影响的博士生Os Keyes所说：“如果‘数据是新石油’，那合成数据就将自己定位成生物燃料，它能够在没有真实数据那些负面外部性的情况下被创造出来”。只需要一个小的起始数据集，就能通过模拟和推断生成新的数据条目。众多科技巨头和AI相关企业都已经积极投身其中，例如，专注于企业服务的生成式AI公司Writer推出的Palmyra X 004模型，宣称几乎完全依靠合成数据训练，其开发成本仅70万美元，相比之下，同等规模的OpenAI模型开发成本预估达460万美元。微软的Phi开放模型部分采用了合成数据训练，谷歌的Gemma模型亦是如此。英伟达在今年夏天公布了一个旨在生成合成训练数据的模型家族，AI初创公司Hugging Face也发布了其声称是最大的合成文本AI训练数据集。据Gartner预测，今年用于AI和分析项目的数据中，将有60%是合成生成的，到2030年，合成数据生成业务有望价值23.4亿美元。

然而，合成数据并非万能的，它同样面临着“垃圾进，垃圾出”的问题。毕竟合成数据是由模型生成的，如果用于训练这些模型的数据本身就存在偏差和局限性，那么其输出的合成数据也会受到影响。例如，在基础数据中代表性不足的群体，在合成数据里同样会如此，莱斯大学和斯坦福大学的研究人员在2023年的一项研究发现，训练期间过度依赖合成数据会导致模型的“质量或多样性逐渐下降”，采样偏差（即对现实世界的不良表征）会使得模型在经过几代训练后多样性变差，不过他们也发现混入一点真实世界的数据有助于缓解这一问题。而且像OpenAI的o1这类复杂模型，还可能产生更难察觉的“幻觉”问题，这些“幻觉”会降低基于这些数据训练的模型的准确性，尤其是当“幻觉”来源难以确定的时候。此外，若使用未经处理的合成数据，可能会导致模型崩溃，模型输出会变得缺乏“创造性”且更具偏差，严重影响其功能，正如艾伦人工智能研究所的高级研究科学家Luca Soldaini所说，要想“安全”使用合成数据，需要对其进行全面审查、筛选和整理，最好能与新的真实数据搭配使用。至少在可预见的未来，想要确保模型训练不出问题，还是离不开人工的参与。

# AI头条 # 初创公司 # ai # AI数据

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

合成数据：AI的救星还是隐患？

合成数据在AI领域的机遇与挑战

OpenAI涉足人形机器人领域背后的秘密？

谷歌Gemini AI竟与Anthropic's Claude有这般纠葛？

相关文章

暂无评论