西北工业大学发布OSUM：集成Whisper与Qwen2的多功能开源语音理解模型

字数 670，阅读大约需 4 分钟

西北工业大学发布开源语音理解模型OSUM：结合Whisper与Qwen2，支持8种语音任务

近日，西北工业大学ASLP实验室推出了一款引人注目的开源语音理解模型——OSUM。这款模型的独特之处在于它巧妙地结合了Whisper编码器和Qwen2语言模型，从而在处理多种语音理解任务时表现出色。

多功能集成

涵盖8种语音理解任务

OSUM不仅支持常见的语音识别（ASR），还能够执行带时间戳的语音识别(SRWT)、语音事件检测(VED)、语音情感识别(SER)等更为复杂的任务。此外，它还能进行说话风格识别(SSR)、说话人性别分类(SGC)、说话人年龄预测(SAP)，以及语音转文本聊天(STTC)。这些能力使得OSUM成为了一个多功能的工具箱，适合各种应用场景。

项目入口^[1]

数据量显著提升

性能更优

据技术报告v2.0介绍，OSUM模型的数据训练量已经从之前的44.1K小时增加到了50.5K小时。特别是，其中包括3000小时的性别分类数据和6800小时的年龄预测数据。这些额外的数据有助于提高模型在特定任务上的准确性和可靠性。评估结果显示，在多个任务上OSUM的表现优于Qwen2-Audio模型，即便是在计算资源和训练数据相对较少的情况下。

开放透明的研究平台

为了促进学术界的发展和技术创新，OSUM强调开放性和透明性。其训练方法和数据准备过程均对外开放，为研究人员提供了宝贵的参考资料。更重要的是，OSUM在其Apache 2.0许可下允许科研人员和开发者自由使用其代码和权重，甚至可用于商业用途。

OSUM的发布标志着向更加开放和协作的人工智能研究环境迈出了重要一步。通过这种方式，它不仅加速了技术的应用和推广，也为全球的研究者提供了一个强大的工具来探索语音理解的新领域。

引用链接

[1] 项目入口: https://github.com/ASLP-lab/OSUM?tab=readme-ov-file

# AI快讯

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...