字数 791,阅读大约需 4 分钟

谷歌发布全新视觉语言模型 PaliGemma 2 Mix:助力开发者实现高效多任务处理
模型概述
谷歌近期推出了全新的视觉语言模型 PaliGemma 2 Mix,该模型在继承前代 PaliGemma 2 强大能力的基础上,针对多任务处理进行了优化,能够同时处理图像和文本输入,并生成相应的输出。它支持图像描述、光学字符识别(OCR)、图像问答、目标检测和图像分割等多种视觉-语言任务,为开发者提供了一个功能强大的多任务处理工具。
参数规模与灵活性
PaliGemma 2 Mix 提供了三种参数规模:3B(30亿参数)、10B(100亿参数)和 28B(280亿参数),并支持 224px 和 448px 两种分辨率。这种灵活性使得模型既适合资源受限的开发场景,也能在高性能计算环境中发挥最大潜力。
功能亮点
图像描述
PaliGemma 2 Mix 能够生成高质量的图像描述,无论是简短的标题还是长篇的详细说明。例如,当输入一张牛站在海滩上的图片时,模型可以生成如下描述:’一只棕色的牛站在金色的沙滩上,背景是一片蔚蓝的大海,远处有几艘小船在海面上航行。阳光洒在牛的身上,显得格外温暖。’ 这种能力不仅适用于简单的图像标注,还能为图像内容的深度理解提供支持。
光学字符识别(OCR)
在 OCR 方面,PaliGemma 2 Mix 表现卓越,能够从图像中提取文字信息,无论是标志、标签还是文档内容,都能准确识别。这一功能在信息提取和文档处理领域具有广泛的应用前景,例如在智能文档处理系统中,可以快速提取关键信息,提高工作效率。
图像问答与目标检测
PaliGemma 2 Mix 支持图像问答功能,用户可以上传图片并提出问题,模型会分析图片并给出准确的答案。此外,它还能进行目标检测,识别图像中的特定对象,如动物、车辆等。这种能力在智能安防、自动驾驶等领域具有重要的应用价值。
开发者友好性
PaliGemma 2 Mix 提供了预训练检查点(checkpoints),开发者可以直接使用这些检查点,或者根据自己的需求进行进一步的微调。开发者可以在 Kaggle[1] 和 Hugging Face[2] 上下载该模型的混合权重,便于进行实验与开发。这种开放性和灵活性使得 PaliGemma 2 Mix 成为开发者探索视觉语言模型的强大工具。
官方技术报告
更多技术细节和研究内容,请参考 PaliGemma 2 Mix 官方技术报告[3]。
引用链接
[1]
Kaggle: https://www.kaggle.com/[2]
Hugging Face: https://huggingface.co/[3]
PaliGemma 2 Mix 官方技术报告: https://arxiv.org/abs/2412.03555