小红书开源FireRedASR，中文语音识别准确率惊人

字数 993，阅读大约需 5 分钟

近日，小红书的FireRed团队在语音识别领域发布开源全新语音识别模型FireRedASR^[1]。这一基于大模型的语音识别系统，在多个标准测试集上取得良好成绩，是中文语音识别技术发展的重要成果。

核心指标大幅领先，凸显技术创新实力

衡量语音识别模型的重要指标之一是字错误率（CER），该指标数值越低，模型的识别效果越好。在近期公开测试中，FireRedASR的CER达到3.05%，相较于之前表现最佳的模型Seed – ASR，降低了8.4%。这一数据体现了FireRed团队在语音识别技术上的深厚积累与创新能力。

《2024 – 2025全球语音识别技术发展蓝皮书》指出，过去几年中文语音识别的字错误率逐步下降，每次微小突破都意味着技术的巨大跨越。FireRedASR能在众多模型中脱颖而出，大幅降低CER，实属不易。

双核心结构设计，满足多元应用场景

FireRedASR模型采用两种核心结构：FireRedASR – LLM和FireRedASR – AED。FireRedASR – LLM专注于极致的语音识别精度，为对识别准确性要求极高的场景提供解决方案；FireRedASR – AED在准确率与推理效率间找到平衡，适用于既需一定识别准确率，又对响应速度有较高要求的场景。

为方便开发者使用，FireRed团队提供不同规模的模型及相应推理代码，无论是资源有限的小型应用，还是对性能要求高的大型项目，都能找到适用版本，降低了开发者在语音识别应用开发的门槛。

日常场景表现卓越，超越行业领先水平

在多个日常应用场景，如短视频、直播和语音输入等组成的综合性测试集中，FireRedASR展现强大性能。FireRedASR – LLM的CER相较于业内领先服务提供商，降低了23.7%至40%。在歌词识别场景，该模型优势更明显，CER实现50.2%至66.7%的相对降低。

以某知名短视频平台内部测试为例，使用FireRedASR – LLM模型后，用户语音转文字准确率大幅提升，因识别错误导致的用户投诉量降低近30%，提升了用户体验，也提高了平台内容生产效率。

多语言场景适应性强，鲁棒性表现优异

FireRedASR不仅普通话识别出色，在中文方言和英语场景同样表现良好。在KeSpeech和LibriSpeech测试集上，其CER显著优于之前的开源模型，证明了该模型在多种语言环境中的鲁棒性和适应性。

中国语言资源保护工程数据显示，我国方言种类多，不同地区方言在语音、词汇和语法上差异大。FireRedASR在中文方言识别取得优异成绩，能更好服务方言使用者，拓展语音识别技术应用范围。在全球化背景下，英语作为国际通用语言，FireRedASR在英语场景的出色表现，使其具备全球广泛应用潜力。

开源推动技术发展，促进语音交互创新

FireRed团队开源FireRedASR模型，旨在推动语音识别技术发展和应用。所有模型和代码已在GitHub^[2]上公开。

近年来，开源成为推动人工智能技术发展的重要力量。知名咨询机构数据显示，超过70%的人工智能项目受益于开源技术。通过开源，不同开发者和研究团队可在FireRedASR基础上二次开发和优化，加速语音识别技术创新，为语音交互发展注入新活力。

• huggingface：https://huggingface.co/FireRedTeam
• github：https://github.com/FireRedTeam/FireRedASR

引用链接

[1] FireRedASR: https://github.com/FireRedTeam/FireRedASR
[2] GitHub: https://github.com/FireRedTeam/FireRedASR

# AI快讯

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...