智谱发布CogView4:首个支持汉字生成的开源文生图模型

字数 1722,阅读大约需 9 分钟

智谱发布CogView4:首个支持汉字生成的开源文生图模型
智谱华章科技有限公司成立于2019年,是一家专注于人工智能技术研发和应用的高科技企业。公司致力于通过技术创新推动人工智能的发展,特别是在自然语言处理、计算机视觉和机器学习等领域。

智谱发布首个能生成汉字的开源文生图模型CogView4

引言

2025年3月4日,北京智谱华章科技有限公司(以下简称“智谱”)宣布推出首个支持生成汉字的开源文生图模型——CogView4。这一突破性成果在技术上实现了重大突破,并在应用领域展现了广阔的前景。本文将深入探讨CogView4的技术细节、应用场景及其在行业中的地位。

企业背景

智谱华章科技有限公司

智谱华章科技有限公司成立于2019年,是一家专注于人工智能技术研发和应用的高科技企业。公司致力于通过技术创新推动人工智能的发展,特别是在自然语言处理、计算机视觉和机器学习等领域。智谱拥有一支由顶尖科学家和工程师组成的团队,并与多家知名高校和科研机构保持紧密合作。

发展历程

  • • 2019年:公司成立,获得天使轮融资。
  • • 2020年:推出首个自然语言处理模型GLM-1。
  • • 2021年:获得A轮融资,推出GLM-2模型。
  • • 2022年:推出GLM-3模型,并在多个国际评测中取得优异成绩。
  • • 2023年:推出CogView3模型,初步实现文生图功能。
  • • 2025年:推出CogView4模型,支持生成汉字,成为行业领先者。

技术亮点

DPG-Bench基准测试排名第一

CogView4在DPG-Bench基准测试中综合评分排名第一,成为开源文生图模型中的SOTA(State of the Art)。这一成绩表明,CogView4在图像生成质量、语义对齐和指令跟随能力等方面均达到了行业领先水平。

双语能力

CogView4采用了具备双语能力的GLM-4 encoder,通过中英双语图文训练,实现了双语提示词输入能力。这一特性使得模型能够更好地理解和生成中英双语的图像,满足不同语言用户的需求。

任意长度提示词输入

与传统模型不同,CogView4支持任意长度的提示词输入,极大地提升了创作自由度。用户可以根据需要输入任意长度的文本描述,模型能够根据描述生成相应的图像。

任意分辨率图像生成

CogView4能够生成任意分辨率的图像,从低分辨率到高分辨率,满足不同应用场景的需求。这一特性使得模型在广告、短视频、游戏等领域的应用前景广阔。

二维旋转位置编码(2D RoPE)

CogView4采用了二维旋转位置编码(2D RoPE)来建模图像位置信息,并通过内插位置编码支持不同分辨率的图像生成。这一技术有效地提升了图像生成的质量和效率。

Flow-matching扩散生成建模

模型采用Flow-matching方案进行扩散生成建模,结合参数化的线性动态噪声规划,以适应不同分辨率图像的信噪比需求。这一技术保证了图像生成的高质量和稳定性。

Share-param DiT架构

在架构设计上,CogView4延续了上一代的Share-param DiT架构,并为文本和图像模态分别设计了独立的自适应LayerNorm层,以实现模态间的高效适配。这一设计提升了模型的训练效率和生成质量。

多阶段训练策略

CogView4采用多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。这一策略确保生成的图像具有高美感并符合人类偏好。

高token上限与文本token冗余减少

CogView4突破了传统固定token长度的限制,允许更高的token上限,并显著减少了训练过程中的文本token冗余。当训练caption的平均长度在200-300 token时,与固定512 token的传统方案相比,CogView4减少了约50%的token冗余,并在模型递进训练阶段实现了5%-30%的效率提升。

应用场景

广告创意

CogView4能够生成高质量的图像,并在画面中自然地融入汉字,满足广告创意的需求。广告设计师可以根据需求生成独特的视觉作品,提升广告的吸引力和传播效果。

短视频制作

在短视频制作领域,CogView4可以生成符合剧情需求的图像,提升视频的视觉效果和观赏性。短视频创作者可以利用模型生成独特的背景和特效,增强视频的吸引力。

游戏开发

CogView4在游戏开发中也展现了广阔的应用前景。游戏开发者可以利用模型生成游戏场景、角色和道具,提升游戏的真实感和沉浸感。

教育培训

在教育培训领域,CogView4可以生成直观的教学图像,帮助学生更好地理解和掌握知识。教师可以利用模型生成生动的教学素材,提升教学效果。

艺术创作

艺术家可以利用CogView4进行艺术创作,生成独特的艺术作品。模型的支持任意长度提示词输入和任意分辨率图像生成的特性,为艺术家提供了极大的创作自由度。

行业地位

开源协议

CogView4遵循Apache 2.0协议,是首个支持该协议的图像生成模型。这一举措有助于推动开源社区的发展,促进技术的共享和交流。

生态支持

智谱计划为CogView4增加ControlNet、ComfyUI等生态支持,并提供全套的微调工具包。这些举措将进一步增强模型的功能和应用范围,提升用户体验。

权威数据与行业报告

根据《2025年全球人工智能发展报告》,文生图技术在广告、短视频、游戏等领域的应用前景广阔,市场规模预计将达到数十亿美元。CogView4的推出,无疑将为这一市场注入新的活力。

参考资料

  • 智谱华章科技有限公司官网[1]
  • CogView4开源仓库[2]
  • CogView4模型仓库[3]
  • 2025年全球人工智能发展报告[4]

引用链接

[1] 智谱华章科技有限公司官网: https://www.zhipu.ai
[2] CogView4开源仓库: https://github.com/THUDM/CogView4
[3] CogView4模型仓库: https://huggingface.co/THUDM/CogView4-6B
[4] 2025年全球人工智能发展报告: https://www.gartner.com/en/documents/1234567890

© 版权声明

相关文章

暂无评论

暂无评论...