字数 893,阅读大约需 5 分钟

计划核心内容与目标
科技巨头Meta[1]宣布与联合国教科文组织(UNESCO)[2]携手,共同开启语言技术伙伴计划。该计划聚焦收集多种语言的语音录音及文字记录,推动未来开放可用的人工智能(AI)在语音和翻译领域的发展,尤其关注数字环境中常被忽视的少数民族语言。
Meta方面表示,通过此计划吸引众多合作伙伴,收集超10小时的语音录音及其转录内容,获取丰富书面文本及翻译句子集合。这些数据将整合到Meta的AI语音识别和翻译模型中,最终以开源形式发布,助力全球AI开发者。
目前全球约7000种语言,大部分在数字技术应用中缺乏资源支持。Meta的这一计划具有前瞻性。截至目前,加拿大北部努纳武特地区政府已确认加入,该地区部分居民使用的因纽特语纳入计划范畴。Meta在博客中明确,努力重点是服务使用人数少、资源匮乏的语言,支持联合国教科文组织工作。长远目标是打造能理解并回应复杂人类需求的智能系统,打破语言和文化隔阂。
配套举措:开源机器翻译基准
为配合此次语言技术伙伴计划,Meta还将发布开源机器翻译基准。此基准由专业语言学家精心设计,支持七种语言,开发者可通过AI开发平台Hugging Face访问与贡献。
在机器翻译领域,准确评估模型性能对提升翻译质量至关重要。良好的评估基准能引导开发者优化模型,使翻译结果更贴近人类语言习惯。Meta此次推出的开源机器翻译基准,将为评估语言翻译模型的性能提供有力工具,有望在行业内树立新的标准,推动整个机器翻译领域的发展。
Meta在语言处理领域的过往与挑战
Meta一直致力于扩展其AI助手Meta AI支持的语言数量,在Instagram Reels等功能中测试语音翻译,如允许创作者对语音进行配音和自动同步。
然而,Meta在非英语内容处理方面曾饱受批评。有报告指出,在Facebook处理意大利语和西班牙语的COVID – 19虚假信息时,近乎70%的相关内容未被标记,而英语内容的未标记比例仅为29%。此外,泄露文件显示阿拉伯语内容常被错误标记为仇恨言论。
面对这些问题,Meta积极采取措施,改善其翻译和内容审核技术。此次与联合国教科文组织合作推出的语言技术伙伴计划,是Meta应对这些挑战的重要一步。通过提升语音和翻译AI的性能,能更准确地处理各类语言内容,减少错误标记情况的发生。
引用链接
[1]
科技巨头Meta: https://about.meta.com/[2]
联合国教科文组织(UNESCO): https://www.unesco.org/