DeepSeek重磅发布Janus-Pro，多模态大模型引领新潮流

字数 734，阅读大约需 4 分钟

DeepSeek深夜再放大招，发布全新多模态大模型Janus-Pro

在人工智能领域不断推陈出新的当下，国产大模型DeepSeek^[1]于近日深夜再次引发行业震动，发布了全新的Janus-Pro多模态大模型，正式强势进军文生图领域。这一举措是DeepSeek在多模态AI技术发展道路上的一个重要里程碑。

性能表现卓越

从性能表现上看，Janus-Pro展现出了卓越的实力。在GenEval和DPG – Bench等权威基准测试中，Janus – Pro – 7B模型表现亮眼，击败了OpenAI备受瞩目的DALL – E3，超越了Stable Diffusion、Emu3 – Gen等一众热门模型。在多模态模型的评估体系中，能在这些基准测试中脱颖而出，意味着该模型在图像生成质量、语义理解准确性以及指令执行能力等多个关键维度上达到了行业顶尖水平。

MIT开源协议亮点突出

Janus – Pro采用的MIT开源协议也是一大亮点。这一开源协议赋予了开发者极大的自由，可无限制地用于商业场景。对于广大AI开发者和企业来说，这是一个重大利好。开源能吸引全球范围内的开发者基于Janus – Pro进行二次开发和优化，进一步推动多模态技术在各个领域的应用落地。据统计，采用MIT开源协议的项目，在开源后的一年内，平均会吸引超过500个开发者参与贡献代码，相关应用的下载量也会呈现爆发式增长。

技术演进显著

从技术演进角度来看，Janus – Pro是2024年11月13日发布的JanusFlow大模型的高级版本。相比前代，Janus – Pro在训练策略上进行了优化，扩展了训练数据，并且模型规模更大。这些改进使得Janus – Pro在多模态理解和文本到图像的指令跟踪功能方面取得了重大进步，同时增强了文本到图像生成的稳定性。目前Janus – Pro只能处理384×384分辨率的图像，但其紧凑的模型规模能达到如此水准已令人惊艳。

功能丰富实用

作为多模态模型，Janus – Pro功能丰富，不仅能生成图像，还具备对图片进行描述、识别地标景点、识别图像中的文字，并对图片中的知识进行介绍等能力。这种多模态交互能力，使得它在实际应用场景中具有更高的实用性和适应性，在智能内容创作、智能客服，以及教育、医疗等领域，都有着广阔的应用前景。

引用链接

[1] DeepSeek: 官网链接待补充

# AI头条 # AI快讯

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...