AI训练数据枯竭，合成数据是出路？

xAI

Elon Musk在与Stagwell董事长Mark Penn的直播对话中表示，AI训练已基本耗尽人类知识的累积总和，这一情况在去年基本发生。前OpenAI首席科学家Ilya Sutskever在12月的NeurIPS机器学习会议上也曾提到AI行业已达到“峰值数据”，并预测训练数据的缺乏将促使模型开发方式的转变。

Musk认为，合成数据是前进的方向，即由AI模型自身生成的数据。事实上，许多科技巨头已经在使用合成数据训练旗舰AI模型。据Gartner估计，2024年用于AI和分析项目的数据中有60%是合成生成的。例如，微软周三早些时候开源的Phi-4模型、谷歌的Gemma模型、Anthropic的Claude 3.5 Sonnet以及Meta的Llama系列模型等都使用了合成数据进行训练或微调。

使用合成数据进行训练有成本节约等优势，如AI startup Writer声称其几乎完全使用合成数据源开发的Palmyra X 004模型，开发成本仅为70万美元，而同等规模的OpenAI模型估计成本为460万美元。但合成数据也有缺点，一些研究表明，合成数据可能导致模型崩溃，模型的输出会变得缺乏“创造性”且更具偏见，最终严重影响其功能。因为模型创建合成数据，如果用于训练这些模型的数据存在偏差和局限性，其输出也会受到类似的影响。

# AI头条 # ai

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

AI训练数据枯竭，合成数据是出路？

xAI的Grok独立iOS应用：AI聊天新变革

弗朗索瓦·肖莱的AGI基准测试之旅

相关文章

暂无评论