字数 1048,阅读大约需 6 分钟

阿里云通义千问Qwen2.5-Omni:多模态交互的革新之作
3月27日,阿里云通义千问Qwen团队宣布推出Qwen模型家族中的新一代端到端多模态旗舰模型——Qwen2.5-Omni。这一全新模型专为全方位多模态感知而设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。
创新架构:Thinker-Talker的协同智慧
Qwen2.5-Omni采用了创新的Thinker-Talker架构,这是一种端到端的多模态模型,旨在支持文本、图像、音频、视频的跨模态理解,并以流式方式生成文本和自然语音响应。其中,Thinker模块如同大脑,负责处理多模态输入并生成高层语义表征及对应文本内容;Talker模块则类似发声器官,以流式方式接收Thinker实时输出的语义表征与文本,流畅合成离散语音单元。这种架构的协同工作,使得Qwen2.5-Omni在多模态数据处理上展现出卓越的能力。
精准同步:TMRoPE技术的时间轴对齐
为了实现视频与音频输入的精准同步,Qwen2.5-Omni提出了一种新的位置编码技术——TMRoPE(Time-aligned Multimodal RoPE)。通过时间轴对齐,该技术确保了不同模态数据在处理过程中的一致性,从而提升了模型在实时音视频交互方面的表现。Qwen2.5-Omni支持分块输入和即时输出,能够实现完全实时的交互,为用户提供了更加流畅和自然的体验。
卓越性能:多模态基准测试的佼佼者
在全模态性能方面,Qwen2.5-Omni在同等规模的单模态模型进行基准测试时,表现出卓越的性能。其音频能力优于类似大小的Qwen2-Audio,并与Qwen2.5-VL-7B保持同等水平。此外,Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。
全面超越:与同类模型的对比优势
Qwen2.5-Omni在包括图像、音频、音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。在多模态任务OmniBench中,Qwen2.5-Omni达到了SOTA的表现。在单模态任务中,Qwen2.5-Omni在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。
开源开放:多平台访问与体验
目前,Qwen2.5-Omni已在多个平台上开源开放,包括**Hugging Face[1]、ModelScope[2]、DashScope[3]和GitHub[4]。用户可以通过Demo体验[5]互动功能,或是通过Qwen Chat[6]**直接发起语音或视频聊天,沉浸式体验全新的Qwen2.5-Omni模型强大性能。
革新性互动体验:语音生成的自然性与稳定性
在语音生成的自然性和稳定性方面,Qwen2.5-Omni超越了许多现有的流式和非流式替代方案。其能够以更加自然和流畅的方式生成语音,为用户提供了更加逼真和沉浸式的交互体验。这一进步不仅在技术上具有重要意义,也为未来多模态交互应用的发展提供了新的可能。
通过以上分析,我们可以看到Qwen2.5-Omni在多模态数据处理、实时交互、语音生成以及基准测试等方面的卓越表现。作为阿里云通义千问Qwen团队的最新力作,Qwen2.5-Omni无疑为多模态交互领域带来了新的突破和创新,为用户提供了更加智能和便捷的交互方式。
引用链接
[1]
Hugging Face: https://huggingface.co/Qwen/Qwen2.5-Omni-7B[2]
ModelScope: https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B[3]
DashScope: https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni[4]
GitHub: https://github.com/QwenLM/Qwen2.5-Omni[5]
Demo体验: https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo[6]
Qwen Chat: https://chat.qwenlm.ai