全球最大语音数据集发布,机遇与风险并存

字数 1446,阅读大约需 8 分钟

全球最大语音数据集发布,机遇与风险并存
MLCommons是一个非营利性AI安全工作组,致力于推动AI领域的标准化和最佳实践,通过组织各种基准测试和协作项目,促进机器学习技术的发展和应用,例如此次与Hugging Face合作发布数据集,支持AI语音研究等相关工作。

数据集规模与目标

近日,非营利性AI安全工作组MLCommons[1]与AI开发平台Hugging Face[2]达成合作,共同发布全球最大的公共领域语音记录集合之一——“无监督人群语音(Unsupervised People’s Speech)”,旨在支持AI研究。该数据集包含超一百万小时音频,涵盖至少89种语言,为AI语音研究提供丰富素材。

MLCommons创建这一数据集,旨在支持“语音技术各个领域的研发”。在自然语言处理领域,对英语以外语言的研究支持,有助于将通信技术推广至全球更多人群。官方期望研究社区在多个方向展开进一步构建与发展,特别是改进低资源语言语音模型、增强不同口音和方言的语音识别能力,以及探索语音合成的新应用。

例如,在改进低资源语言语音模型方面,以往因缺乏足够数据支持,许多小语种语音模型发展滞后。此次大规模数据集发布,为这些语言的语音模型训练提供有力数据支撑。

潜在风险不容忽视

像“无监督人群语音”这样的AI数据集,对研究人员存在一定风险。数据偏差是其中之一。该数据集录音来自Archive.org,由于Archive.org许多贡献者是说英语的美国人,“无监督人群语音”中几乎所有录音都是美式英语口音。若不仔细筛选,基于该数据集训练的语音识别和语音合成等AI系统,会表现出一些偏见。

举例来说,这些系统在转录非英语母语者所说的英语时会遇到困难,或者在生成英语以外语言的合成语音方面存在问题。相关研究报告显示,在一些基于有偏差数据集训练的语音识别系统中,对带有非标准口音英语的识别准确率比标准美式英语口音低20% – 30% 。

此外,“无监督人群语音”中包含一些当事人未意识到其声音被用于AI研究目的(包括商业应用)的录音。尽管MLCommons称数据集中所有录音均为公共领域或在知识共享许可下可用,但仍可能出现错误。麻省理工学院一项分析表明,数百个公开可用的AI训练数据集缺乏许可信息且存在错误。

以AI伦理非营利组织Fairly Trained的首席执行官Ed Newton – Rex为代表的创作者倡导者认为,不应要求创作者从AI数据集中“退出”,因为这给创作者带来沉重负担。Newton – Rex去年6月在X平台(原推特)一篇文章中写道:“许多创作者(如Squarespace用户)没有切实可行的退出方式。对于那些可以退出的创作者来说,存在多种重叠的退出方法,这些方法极其混乱,覆盖范围严重不足。即使存在完美的通用退出机制,鉴于生成式AI利用他们的作品与他们竞争,将退出负担加在创作者身上也是极不公平的——许多人甚至根本没有意识到他们可以退出。”

中美欧相关政策与技术发展对比

在AI数据监管政策方面,欧洲走在前列。欧盟的《通用数据保护条例》(GDPR)对数据主体权利进行详细规定,强调数据收集需获得明确同意,保障数据所有者权益。相比之下,美国在数据隐私保护方面,虽有一些州级立法,如加州消费者隐私法案(CCPA),但联邦层面缺乏统一全面的数据保护法律。

在中国,近年来陆续出台一系列与数据安全和隐私保护相关的法律法规,如《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等,规范数据收集、使用和管理。在中国AI语音技术发展上,中国一些科技公司如百度、科大讯飞等,在语音识别和合成技术方面取得显著成果,技术在国内广泛应用于智能语音助手、智能客服等领域。欧洲在多语言语音技术研究方面有优势,以适应其多语言环境需求。美国科技巨头如谷歌、微软等,在AI语音技术研发上投入巨大,在全球市场占据重要地位。

MLCommons的应对承诺

面对数据集潜在缺陷,MLCommons致力于更新、维护和提高“无监督人群语音”的质量。开发者仍需谨慎使用该数据集。数据质量对AI模型训练效果至关重要,存在偏差或错误的数据集,会导致训练出的AI模型在实际应用中出现各种问题。例如,在一些语音交互场景中,若语音识别模型对不同口音识别准确率较低,会严重影响用户体验,甚至导致交互失败。

引用链接

[1] MLCommons: https://mlcommons.org/
[2] Hugging Face: https://huggingface.co/

© 版权声明

相关文章

暂无评论

暂无评论...