Granite-Vision-3.1-2B:视觉语言模型的新突破

AI快讯4小时前发布 freeAI
0

字数 549,阅读大约需 3 分钟

Granite-Vision-3.1-2B:视觉语言模型的新突破
IBM(国际商业机器公司)是一家全球知名的科技公司,业务广泛,涵盖云计算、人工智能、大数据分析、企业软件、硬件设备、咨询服务等多个领域。在云计算方面,提供云平台和相关服务;人工智能领域,研发和应用各类AI技术;大数据分析助力企业处理和分析海量数据;企业软件包含多种用于企业管理、运营的软件产品;硬件设备涉及服务器等产品;同时,凭借专业知识为客户提供各类咨询服务。

Granite-Vision-3.1-2B:视觉语言模型的新突破

Granite-Vision-3.1-2B是IBM推出的一款极具创新性的视觉语言模型,在文档理解领域展现出了强大的实力。

模型架构与组件

  • 视觉编码器:采用SigLIP技术,高效处理和编码视觉数据,快速捕捉图像关键信息。
  • 视觉语言连接器:双层多层感知器(MLP)搭配GELU激活函数,有效连接视觉与文本信息,助力模型学习复杂非线性关系。
  • 大型语言模型:基于Granite-3.1-2B-Instruct,拥有128k的上下文长度,可处理复杂庞大输入。

训练过程与改进

借鉴LlaVA经验,结合多层编码器特性与AnyRes中更密集的网格分辨率,增强模型对详细视觉内容的理解能力,能多层次提取和分析视觉信息,捕捉细微细节。

性能表现卓越

在ChartQA基准测试中得分达0.86,超越同参数范围模型,展现出优秀的图表理解和问答能力;在TextVQA基准测试中得分为0.76 ,解析和回答图像中嵌入文本信息的能力强大。

应用潜力巨大

因其对变换器和vLLM的原生支持,可适应多种用例,如在数据分析领域助力企业提取关键数据,在信息检索场景快速定位和理解视觉信息,还能在云环境中部署,为专业人士提供实用工具,提升文档处理效率。

© 版权声明

相关文章

暂无评论

暂无评论...