Elon Musk在与Stagwell董事长Mark Penn的直播对话中表示,AI训练已基本耗尽人类知识的累积总和,这一情况在去年基本发生。前OpenAI首席科学家Ilya Sutskever在12月的NeurIPS机器学习会议上也曾提到AI行业已达到“峰值数据”,并预测训练数据的缺乏将促使模型开发方式的转变。
Musk认为,合成数据是前进的方向,即由AI模型自身生成的数据。事实上,许多科技巨头已经在使用合成数据训练旗舰AI模型。据Gartner估计,2024年用于AI和分析项目的数据中有60%是合成生成的。例如,微软周三早些时候开源的Phi-4模型、谷歌的Gemma模型、Anthropic的Claude 3.5 Sonnet以及Meta的Llama系列模型等都使用了合成数据进行训练或微调。
使用合成数据进行训练有成本节约等优势,如AI startup Writer声称其几乎完全使用合成数据源开发的Palmyra X 004模型,开发成本仅为70万美元,而同等规模的OpenAI模型估计成本为460万美元。但合成数据也有缺点,一些研究表明,合成数据可能导致模型崩溃,模型的输出会变得缺乏“创造性”且更具偏见,最终严重影响其功能。因为模型创建合成数据,如果用于训练这些模型的数据存在偏差和局限性,其输出也会受到类似的影响。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...