字数 1722,阅读大约需 9 分钟

智谱发布首个能生成汉字的开源文生图模型CogView4
引言
2025年3月4日,北京智谱华章科技有限公司(以下简称“智谱”)宣布推出首个支持生成汉字的开源文生图模型——CogView4。这一突破性成果在技术上实现了重大突破,并在应用领域展现了广阔的前景。本文将深入探讨CogView4的技术细节、应用场景及其在行业中的地位。
企业背景
智谱华章科技有限公司
智谱华章科技有限公司成立于2019年,是一家专注于人工智能技术研发和应用的高科技企业。公司致力于通过技术创新推动人工智能的发展,特别是在自然语言处理、计算机视觉和机器学习等领域。智谱拥有一支由顶尖科学家和工程师组成的团队,并与多家知名高校和科研机构保持紧密合作。
发展历程
- • 2019年:公司成立,获得天使轮融资。
- • 2020年:推出首个自然语言处理模型GLM-1。
- • 2021年:获得A轮融资,推出GLM-2模型。
- • 2022年:推出GLM-3模型,并在多个国际评测中取得优异成绩。
- • 2023年:推出CogView3模型,初步实现文生图功能。
- • 2025年:推出CogView4模型,支持生成汉字,成为行业领先者。
技术亮点
DPG-Bench基准测试排名第一
CogView4在DPG-Bench基准测试中综合评分排名第一,成为开源文生图模型中的SOTA(State of the Art)。这一成绩表明,CogView4在图像生成质量、语义对齐和指令跟随能力等方面均达到了行业领先水平。
双语能力
CogView4采用了具备双语能力的GLM-4 encoder,通过中英双语图文训练,实现了双语提示词输入能力。这一特性使得模型能够更好地理解和生成中英双语的图像,满足不同语言用户的需求。
任意长度提示词输入
与传统模型不同,CogView4支持任意长度的提示词输入,极大地提升了创作自由度。用户可以根据需要输入任意长度的文本描述,模型能够根据描述生成相应的图像。
任意分辨率图像生成
CogView4能够生成任意分辨率的图像,从低分辨率到高分辨率,满足不同应用场景的需求。这一特性使得模型在广告、短视频、游戏等领域的应用前景广阔。
二维旋转位置编码(2D RoPE)
CogView4采用了二维旋转位置编码(2D RoPE)来建模图像位置信息,并通过内插位置编码支持不同分辨率的图像生成。这一技术有效地提升了图像生成的质量和效率。
Flow-matching扩散生成建模
模型采用Flow-matching方案进行扩散生成建模,结合参数化的线性动态噪声规划,以适应不同分辨率图像的信噪比需求。这一技术保证了图像生成的高质量和稳定性。
Share-param DiT架构
在架构设计上,CogView4延续了上一代的Share-param DiT架构,并为文本和图像模态分别设计了独立的自适应LayerNorm层,以实现模态间的高效适配。这一设计提升了模型的训练效率和生成质量。
多阶段训练策略
CogView4采用多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。这一策略确保生成的图像具有高美感并符合人类偏好。
高token上限与文本token冗余减少
CogView4突破了传统固定token长度的限制,允许更高的token上限,并显著减少了训练过程中的文本token冗余。当训练caption的平均长度在200-300 token时,与固定512 token的传统方案相比,CogView4减少了约50%的token冗余,并在模型递进训练阶段实现了5%-30%的效率提升。
应用场景
广告创意
CogView4能够生成高质量的图像,并在画面中自然地融入汉字,满足广告创意的需求。广告设计师可以根据需求生成独特的视觉作品,提升广告的吸引力和传播效果。
短视频制作
在短视频制作领域,CogView4可以生成符合剧情需求的图像,提升视频的视觉效果和观赏性。短视频创作者可以利用模型生成独特的背景和特效,增强视频的吸引力。
游戏开发
CogView4在游戏开发中也展现了广阔的应用前景。游戏开发者可以利用模型生成游戏场景、角色和道具,提升游戏的真实感和沉浸感。
教育培训
在教育培训领域,CogView4可以生成直观的教学图像,帮助学生更好地理解和掌握知识。教师可以利用模型生成生动的教学素材,提升教学效果。
艺术创作
艺术家可以利用CogView4进行艺术创作,生成独特的艺术作品。模型的支持任意长度提示词输入和任意分辨率图像生成的特性,为艺术家提供了极大的创作自由度。
行业地位
开源协议
CogView4遵循Apache 2.0协议,是首个支持该协议的图像生成模型。这一举措有助于推动开源社区的发展,促进技术的共享和交流。
生态支持
智谱计划为CogView4增加ControlNet、ComfyUI等生态支持,并提供全套的微调工具包。这些举措将进一步增强模型的功能和应用范围,提升用户体验。
权威数据与行业报告
根据《2025年全球人工智能发展报告》,文生图技术在广告、短视频、游戏等领域的应用前景广阔,市场规模预计将达到数十亿美元。CogView4的推出,无疑将为这一市场注入新的活力。
参考资料
- • 智谱华章科技有限公司官网[1]
- • CogView4开源仓库[2]
- • CogView4模型仓库[3]
- • 2025年全球人工智能发展报告[4]
引用链接
[1]
智谱华章科技有限公司官网: https://www.zhipu.ai[2]
CogView4开源仓库: https://github.com/THUDM/CogView4[3]
CogView4模型仓库: https://huggingface.co/THUDM/CogView4-6B[4]
2025年全球人工智能发展报告: https://www.gartner.com/en/documents/1234567890