合成数据:AI的救星还是隐患?

AI头条2个月前发布 freeAI
0
合成数据:AI的救星还是隐患?

Writer

合成数据在AI领域的机遇与挑战

在当今AI飞速发展的时代,数据的重要性不言而喻。AI系统本质上属于统计机器,它需要依靠大量带有标注(annotations)的数据进行训练,通过学习这些数据里的模式来做出预测。比如说,邮件里‘to whom’通常会在‘it may concern’之前这样的规律,就是靠学习大量标注数据得来的。而数据标注这一环节已经催生出庞大的市场,据Dimension Market Research估计,当下其价值高达83820万美元,且未来10年有望达到103.4亿美元,众多大小公司都依赖数据标注公司的员工来为AI训练集创建标签。
不过,传统依赖人工标注数据的方式正面临诸多困境。一方面,从人文角度来看,部分标注工作者薪资待遇不佳,像在发展中国家的标注员平均每小时仅有几美元报酬,还没有福利及后续工作保障。另一方面,从实际操作层面来讲,人工标注速度有限,标注员本身存在的偏见会体现在标注结果中,进而影响基于这些标注训练的模型,而且他们也可能出现标注错误或者被标注指令误导的情况。此外,获取数据的成本越来越高,像Shutterstock向AI供应商收取数千万美元以访问其档案资料,Reddit通过向谷歌、OpenAI等授权数据获利数亿美元。更重要的是,数据越来越难获取了,多数模型依靠大量公共数据训练,但数据所有者因担心数据被剽窃或者无法获得相应的功劳与归属权,开始限制数据访问,近期有研究发现,全球前1000名网站中超过35%已经屏蔽了OpenAI的网络爬虫,约25%来自‘高质量’数据源的数据已被限制用于模型训练集,按照Epoch AI的预测,如果当前这种访问受限趋势持续,到2026 – 2032年间,开发者们将面临没有数据来训练生成式AI模型的局面。

在此背景下,合成数据似乎成为了解决这些问题的良方。就如同华盛顿大学研究新兴技术伦理影响的博士生Os Keyes所说:“如果‘数据是新石油’,那合成数据就将自己定位成生物燃料,它能够在没有真实数据那些负面外部性的情况下被创造出来”。只需要一个小的起始数据集,就能通过模拟和推断生成新的数据条目。众多科技巨头和AI相关企业都已经积极投身其中,例如,专注于企业服务的生成式AI公司Writer推出的Palmyra X 004模型,宣称几乎完全依靠合成数据训练,其开发成本仅70万美元,相比之下,同等规模的OpenAI模型开发成本预估达460万美元。微软的Phi开放模型部分采用了合成数据训练,谷歌的Gemma模型亦是如此。英伟达在今年夏天公布了一个旨在生成合成训练数据的模型家族,AI初创公司Hugging Face也发布了其声称是最大的合成文本AI训练数据集。据Gartner预测,今年用于AI和分析项目的数据中,将有60%是合成生成的,到2030年,合成数据生成业务有望价值23.4亿美元。

然而,合成数据并非万能的,它同样面临着“垃圾进,垃圾出”的问题。毕竟合成数据是由模型生成的,如果用于训练这些模型的数据本身就存在偏差和局限性,那么其输出的合成数据也会受到影响。例如,在基础数据中代表性不足的群体,在合成数据里同样会如此,莱斯大学和斯坦福大学的研究人员在2023年的一项研究发现,训练期间过度依赖合成数据会导致模型的“质量或多样性逐渐下降”,采样偏差(即对现实世界的不良表征)会使得模型在经过几代训练后多样性变差,不过他们也发现混入一点真实世界的数据有助于缓解这一问题。而且像OpenAI的o1这类复杂模型,还可能产生更难察觉的“幻觉”问题,这些“幻觉”会降低基于这些数据训练的模型的准确性,尤其是当“幻觉”来源难以确定的时候。此外,若使用未经处理的合成数据,可能会导致模型崩溃,模型输出会变得缺乏“创造性”且更具偏差,严重影响其功能,正如艾伦人工智能研究所的高级研究科学家Luca Soldaini所说,要想“安全”使用合成数据,需要对其进行全面审查、筛选和整理,最好能与新的真实数据搭配使用。至少在可预见的未来,想要确保模型训练不出问题,还是离不开人工的参与。

© 版权声明

相关文章

暂无评论

暂无评论...