字数 993,阅读大约需 5 分钟

近日,小红书的FireRed团队在语音识别领域发布开源全新语音识别模型FireRedASR[1]。这一基于大模型的语音识别系统,在多个标准测试集上取得良好成绩,是中文语音识别技术发展的重要成果。
核心指标大幅领先,凸显技术创新实力
衡量语音识别模型的重要指标之一是字错误率(CER),该指标数值越低,模型的识别效果越好。在近期公开测试中,FireRedASR的CER达到3.05%,相较于之前表现最佳的模型Seed – ASR,降低了8.4%。这一数据体现了FireRed团队在语音识别技术上的深厚积累与创新能力。
《2024 – 2025全球语音识别技术发展蓝皮书》指出,过去几年中文语音识别的字错误率逐步下降,每次微小突破都意味着技术的巨大跨越。FireRedASR能在众多模型中脱颖而出,大幅降低CER,实属不易。
双核心结构设计,满足多元应用场景
FireRedASR模型采用两种核心结构:FireRedASR – LLM和FireRedASR – AED。FireRedASR – LLM专注于极致的语音识别精度,为对识别准确性要求极高的场景提供解决方案;FireRedASR – AED在准确率与推理效率间找到平衡,适用于既需一定识别准确率,又对响应速度有较高要求的场景。
为方便开发者使用,FireRed团队提供不同规模的模型及相应推理代码,无论是资源有限的小型应用,还是对性能要求高的大型项目,都能找到适用版本,降低了开发者在语音识别应用开发的门槛。
日常场景表现卓越,超越行业领先水平
在多个日常应用场景,如短视频、直播和语音输入等组成的综合性测试集中,FireRedASR展现强大性能。FireRedASR – LLM的CER相较于业内领先服务提供商,降低了23.7%至40%。在歌词识别场景,该模型优势更明显,CER实现50.2%至66.7%的相对降低。
以某知名短视频平台内部测试为例,使用FireRedASR – LLM模型后,用户语音转文字准确率大幅提升,因识别错误导致的用户投诉量降低近30%,提升了用户体验,也提高了平台内容生产效率。
多语言场景适应性强,鲁棒性表现优异
FireRedASR不仅普通话识别出色,在中文方言和英语场景同样表现良好。在KeSpeech和LibriSpeech测试集上,其CER显著优于之前的开源模型,证明了该模型在多种语言环境中的鲁棒性和适应性。
中国语言资源保护工程数据显示,我国方言种类多,不同地区方言在语音、词汇和语法上差异大。FireRedASR在中文方言识别取得优异成绩,能更好服务方言使用者,拓展语音识别技术应用范围。在全球化背景下,英语作为国际通用语言,FireRedASR在英语场景的出色表现,使其具备全球广泛应用潜力。
开源推动技术发展,促进语音交互创新
FireRed团队开源FireRedASR模型,旨在推动语音识别技术发展和应用。所有模型和代码已在GitHub[2]上公开。
近年来,开源成为推动人工智能技术发展的重要力量。知名咨询机构数据显示,超过70%的人工智能项目受益于开源技术。通过开源,不同开发者和研究团队可在FireRedASR基础上二次开发和优化,加速语音识别技术创新,为语音交互发展注入新活力。
- • huggingface:https://huggingface.co/FireRedTeam
- • github:https://github.com/FireRedTeam/FireRedASR
引用链接
[1]
FireRedASR: https://github.com/FireRedTeam/FireRedASR[2]
GitHub: https://github.com/FireRedTeam/FireRedASR