全球最大语音数据集发布，机遇与风险并存

字数 1446，阅读大约需 8 分钟

数据集规模与目标

近日，非营利性AI安全工作组MLCommons^[1]与AI开发平台Hugging Face^[2]达成合作，共同发布全球最大的公共领域语音记录集合之一——“无监督人群语音（Unsupervised People’s Speech）”，旨在支持AI研究。该数据集包含超一百万小时音频，涵盖至少89种语言，为AI语音研究提供丰富素材。

MLCommons创建这一数据集，旨在支持“语音技术各个领域的研发”。在自然语言处理领域，对英语以外语言的研究支持，有助于将通信技术推广至全球更多人群。官方期望研究社区在多个方向展开进一步构建与发展，特别是改进低资源语言语音模型、增强不同口音和方言的语音识别能力，以及探索语音合成的新应用。

例如，在改进低资源语言语音模型方面，以往因缺乏足够数据支持，许多小语种语音模型发展滞后。此次大规模数据集发布，为这些语言的语音模型训练提供有力数据支撑。

潜在风险不容忽视

像“无监督人群语音”这样的AI数据集，对研究人员存在一定风险。数据偏差是其中之一。该数据集录音来自Archive.org，由于Archive.org许多贡献者是说英语的美国人，“无监督人群语音”中几乎所有录音都是美式英语口音。若不仔细筛选，基于该数据集训练的语音识别和语音合成等AI系统，会表现出一些偏见。

举例来说，这些系统在转录非英语母语者所说的英语时会遇到困难，或者在生成英语以外语言的合成语音方面存在问题。相关研究报告显示，在一些基于有偏差数据集训练的语音识别系统中，对带有非标准口音英语的识别准确率比标准美式英语口音低20% – 30% 。

此外，“无监督人群语音”中包含一些当事人未意识到其声音被用于AI研究目的（包括商业应用）的录音。尽管MLCommons称数据集中所有录音均为公共领域或在知识共享许可下可用，但仍可能出现错误。麻省理工学院一项分析表明，数百个公开可用的AI训练数据集缺乏许可信息且存在错误。

以AI伦理非营利组织Fairly Trained的首席执行官Ed Newton – Rex为代表的创作者倡导者认为，不应要求创作者从AI数据集中“退出”，因为这给创作者带来沉重负担。Newton – Rex去年6月在X平台（原推特）一篇文章中写道：“许多创作者（如Squarespace用户）没有切实可行的退出方式。对于那些可以退出的创作者来说，存在多种重叠的退出方法，这些方法极其混乱，覆盖范围严重不足。即使存在完美的通用退出机制，鉴于生成式AI利用他们的作品与他们竞争，将退出负担加在创作者身上也是极不公平的——许多人甚至根本没有意识到他们可以退出。”

中美欧相关政策与技术发展对比

在AI数据监管政策方面，欧洲走在前列。欧盟的《通用数据保护条例》（GDPR）对数据主体权利进行详细规定，强调数据收集需获得明确同意，保障数据所有者权益。相比之下，美国在数据隐私保护方面，虽有一些州级立法，如加州消费者隐私法案（CCPA），但联邦层面缺乏统一全面的数据保护法律。

在中国，近年来陆续出台一系列与数据安全和隐私保护相关的法律法规，如《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等，规范数据收集、使用和管理。在中国AI语音技术发展上，中国一些科技公司如百度、科大讯飞等，在语音识别和合成技术方面取得显著成果，技术在国内广泛应用于智能语音助手、智能客服等领域。欧洲在多语言语音技术研究方面有优势，以适应其多语言环境需求。美国科技巨头如谷歌、微软等，在AI语音技术研发上投入巨大，在全球市场占据重要地位。

MLCommons的应对承诺

面对数据集潜在缺陷，MLCommons致力于更新、维护和提高“无监督人群语音”的质量。开发者仍需谨慎使用该数据集。数据质量对AI模型训练效果至关重要，存在偏差或错误的数据集，会导致训练出的AI模型在实际应用中出现各种问题。例如，在一些语音交互场景中，若语音识别模型对不同口音识别准确率较低，会严重影响用户体验，甚至导致交互失败。