智谱发布CogView4：首个支持汉字生成的开源文生图模型

字数 1722，阅读大约需 9 分钟

智谱发布首个能生成汉字的开源文生图模型CogView4

引言

2025年3月4日，北京智谱华章科技有限公司（以下简称“智谱”）宣布推出首个支持生成汉字的开源文生图模型——CogView4。这一突破性成果在技术上实现了重大突破，并在应用领域展现了广阔的前景。本文将深入探讨CogView4的技术细节、应用场景及其在行业中的地位。

企业背景

智谱华章科技有限公司

智谱华章科技有限公司成立于2019年，是一家专注于人工智能技术研发和应用的高科技企业。公司致力于通过技术创新推动人工智能的发展，特别是在自然语言处理、计算机视觉和机器学习等领域。智谱拥有一支由顶尖科学家和工程师组成的团队，并与多家知名高校和科研机构保持紧密合作。

发展历程

• 2019年：公司成立，获得天使轮融资。
• 2020年：推出首个自然语言处理模型GLM-1。
• 2021年：获得A轮融资，推出GLM-2模型。
• 2022年：推出GLM-3模型，并在多个国际评测中取得优异成绩。
• 2023年：推出CogView3模型，初步实现文生图功能。
• 2025年：推出CogView4模型，支持生成汉字，成为行业领先者。

技术亮点

DPG-Bench基准测试排名第一

CogView4在DPG-Bench基准测试中综合评分排名第一，成为开源文生图模型中的SOTA（State of the Art）。这一成绩表明，CogView4在图像生成质量、语义对齐和指令跟随能力等方面均达到了行业领先水平。

双语能力

CogView4采用了具备双语能力的GLM-4 encoder，通过中英双语图文训练，实现了双语提示词输入能力。这一特性使得模型能够更好地理解和生成中英双语的图像，满足不同语言用户的需求。

任意长度提示词输入

与传统模型不同，CogView4支持任意长度的提示词输入，极大地提升了创作自由度。用户可以根据需要输入任意长度的文本描述，模型能够根据描述生成相应的图像。

任意分辨率图像生成

CogView4能够生成任意分辨率的图像，从低分辨率到高分辨率，满足不同应用场景的需求。这一特性使得模型在广告、短视频、游戏等领域的应用前景广阔。

二维旋转位置编码（2D RoPE）

CogView4采用了二维旋转位置编码（2D RoPE）来建模图像位置信息，并通过内插位置编码支持不同分辨率的图像生成。这一技术有效地提升了图像生成的质量和效率。

Flow-matching扩散生成建模

模型采用Flow-matching方案进行扩散生成建模，结合参数化的线性动态噪声规划，以适应不同分辨率图像的信噪比需求。这一技术保证了图像生成的高质量和稳定性。

Share-param DiT架构

在架构设计上，CogView4延续了上一代的Share-param DiT架构，并为文本和图像模态分别设计了独立的自适应LayerNorm层，以实现模态间的高效适配。这一设计提升了模型的训练效率和生成质量。

多阶段训练策略

CogView4采用多阶段训练策略，包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。这一策略确保生成的图像具有高美感并符合人类偏好。

高token上限与文本token冗余减少

CogView4突破了传统固定token长度的限制，允许更高的token上限，并显著减少了训练过程中的文本token冗余。当训练caption的平均长度在200-300 token时，与固定512 token的传统方案相比，CogView4减少了约50%的token冗余，并在模型递进训练阶段实现了5%-30%的效率提升。

应用场景

广告创意

CogView4能够生成高质量的图像，并在画面中自然地融入汉字，满足广告创意的需求。广告设计师可以根据需求生成独特的视觉作品，提升广告的吸引力和传播效果。

短视频制作

在短视频制作领域，CogView4可以生成符合剧情需求的图像，提升视频的视觉效果和观赏性。短视频创作者可以利用模型生成独特的背景和特效，增强视频的吸引力。

游戏开发

CogView4在游戏开发中也展现了广阔的应用前景。游戏开发者可以利用模型生成游戏场景、角色和道具，提升游戏的真实感和沉浸感。

教育培训

在教育培训领域，CogView4可以生成直观的教学图像，帮助学生更好地理解和掌握知识。教师可以利用模型生成生动的教学素材，提升教学效果。

艺术创作

艺术家可以利用CogView4进行艺术创作，生成独特的艺术作品。模型的支持任意长度提示词输入和任意分辨率图像生成的特性，为艺术家提供了极大的创作自由度。

行业地位

开源协议

CogView4遵循Apache 2.0协议，是首个支持该协议的图像生成模型。这一举措有助于推动开源社区的发展，促进技术的共享和交流。

生态支持

智谱计划为CogView4增加ControlNet、ComfyUI等生态支持，并提供全套的微调工具包。这些举措将进一步增强模型的功能和应用范围，提升用户体验。

权威数据与行业报告

根据《2025年全球人工智能发展报告》，文生图技术在广告、短视频、游戏等领域的应用前景广阔，市场规模预计将达到数十亿美元。CogView4的推出，无疑将为这一市场注入新的活力。

参考资料

• 智谱华章科技有限公司官网^[1]
• CogView4开源仓库^[2]
• CogView4模型仓库^[3]
• 2025年全球人工智能发展报告^[4]

引用链接

[1] 智谱华章科技有限公司官网: https://www.zhipu.ai
[2] CogView4开源仓库: https://github.com/THUDM/CogView4
[3] CogView4模型仓库: https://huggingface.co/THUDM/CogView4-6B
[4] 2025年全球人工智能发展报告: https://www.gartner.com/en/documents/1234567890

# AI快讯 # 初创公司

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...