Ovis2系列:多模态大语言模型的开源新突破

字数 913,阅读大约需 5 分钟

Ovis2系列:多模态大语言模型的开源新突破
阿里巴巴是全球领先的电子商务和科技公司,提供包括B2B国际贸易、零售、云计算、数字娱乐等多项服务。

Ovis2系列多模态大语言模型:引领AI技术新潮流

模型概述

2025年2月21日,阿里巴巴国际化团队宣布其新型多模态大语言模型Ovis2系列正式开源。作为Ovis系列模型的最新迭代,Ovis2在数据构造和训练方法上进行了显著改进,不仅提升了小规模模型的能力密度,还通过指令微调和偏好学习大幅增强了思维链(CoT)推理能力。

模型架构创新

Ovis2的架构设计巧妙地解决了模态间嵌入策略差异的问题。它由三个关键组件构成:

  • 视觉tokenizer:将输入图像分割成多个图像块,利用视觉Transformer提取特征,并通过视觉头层将特征匹配到“视觉单词”上,得到概率化的视觉token。
  • 视觉嵌入表:存储每个视觉单词对应的嵌入向量。
  • LLM:将视觉嵌入向量与文本嵌入向量拼接后进行处理,生成文本输出,完成多模态任务。

多阶段训练策略

Ovis2采用了四阶段训练方法,以充分激发其多模态理解能力:

  • 第一阶段:冻结大部分LLM和ViT参数,训练视觉模块,学习视觉特征到嵌入的转化。
  • 第二阶段:进一步增强视觉模块的特征提取能力,提升高分辨率图像理解、多语言和OCR能力。
  • 第三阶段:通过对话形式的视觉Caption数据对齐视觉嵌入与LLM的对话格式。
  • 第四阶段:多模态指令训练和偏好学习,提升模型在多种模态下对用户指令的遵循能力和输出质量。

性能与应用

卓越的性能表现

此次开源的Ovis2系列包括1B、2B、4B、8B、16B和34B六个版本,各个参数版本均达到了同尺寸的SOTA水平。其中,Ovis2-34B在权威评测榜单OpenCompass上展现出了卓越的性能:

  • 多模态通用能力榜单:位列所有开源模型第二,以不到一半的参数尺寸超过了诸多70B开源旗舰模型。
  • 多模态数学推理榜单:位列所有开源模型第一,其他尺寸版本也展现出出色的推理能力。

视频理解能力的提升

为了提升视频理解能力,Ovis2开发了一种创新的关键帧选择算法。该算法基于帧与文本的相关性、帧之间的组合多样性和帧的序列性挑选最有用的视频帧。通过高维条件相似度计算、行列式点过程(DPP)和马尔可夫决策过程(MDP),算法能够在有限的视觉上下文中高效地选择关键帧,从而提升视频理解的性能。

开源与社区合作

阿里巴巴国际化团队认为开源是推动AI技术进步的关键力量。通过公开分享Ovis2的研究成果,团队期待与全球开发者共同探索多模态大模型的前沿,并激发更多创新应用。目前,Ovis2的代码已开源至GitHub[1],模型可在Hugging Face[2]Modelscope[3]平台上获取,同时提供了在线Demo供用户体验。相关研究论文也已发布在arXiv[4]上,供开发者和研究者参考。

引用链接

[1] GitHub: https://github.com/AIDC-AI/Ovis
[2] Hugging Face: https://huggingface.co/AIDC-AI/Ovis2-34B
[3] Modelscope: https://modelscope.cn/collections/Ovis2-1e2840cb4f7d45
[4] arXiv: https://arxiv.org/abs/2405.20797

© 版权声明

相关文章

暂无评论

暂无评论...