智谱AI发布CogView4：中文开源图片模型的新纪元

字数 1185，阅读大约需 6 分钟

中文开源图片模型的新纪元：智谱AI发布CogView4

智谱AI：引领中文AI发展的先锋

智谱AI作为国内领先的AI技术公司，一直致力于推动人工智能技术的发展。凭借强大的研发能力和创新精神，智谱AI在AI领域取得了显著的成就。公司不仅拥有丰富的技术积累，还与全球顶尖的AI实验室和科研机构保持紧密合作，确保其在技术前沿始终保持领先地位。

CogView4：中文图片生成的新标杆

中文理解力：突破语言障碍

CogView4最大的亮点在于其对中文的“超强理解力”。传统图像生成模型大多基于英文指令，对中文用户来说使用不便。而CogView4通过升级的GLM-4编码器，实现了中英双语的自由切换，用户可直接使用中文指令，无需繁琐翻译。

汉字生成：原汁原味的创意表达

CogView4是首个能直接在画面中“写”出汉字的开源模型，为中文用户提供极大便利，使创意表达更加“原汁原味”。无论是设计海报、制作宣传材料还是艺术创作，CogView4都能完美呈现中文文字的美感。

尺寸和长度自由：无限创意空间

CogView4解放了图片尺寸和指令长度的限制。无论是生成巨幅宽屏海报还是描述复杂场景的长篇大论，CogView4都能轻松应对，极大拓展了用户的创意空间。

权威认证：DPG-Bench基准测试冠军

在权威的DPG-Bench基准测试中，CogView4凭借出色表现综合评分排名第一，证明了其强大实力和卓越的图像生成质量。

技术升级：CogView4背后的秘密

双语能力大跃进

CogView4的“大脑”升级为更强大的GLM-4编码器，实现中英双语自由切换。通过学习海量中英双语图文数据，CogView4彻底摆脱了以往中文模型“英文不好使”的尴尬局面。

文本处理更聪明

CogView4采用“动态文本长度”技术，能根据指令长短“量体裁衣”，避免传统固定长度方案的“浪费”和“冗余”，效率提升5%-30%。这提升了指令理解的精准度，加快了图像生成速度。

分辨率生成更灵活

通过“混合分辨率训练”和“二维旋转位置编码”等技术，CogView4能轻松驾驭各种尺寸的图片生成。无论是高清大图还是小巧精致的图片，CogView4都能完美呈现。Flow-matching扩散模型和参数化线性动态噪声规划的应用，使图像生成过程更加“丝滑”和“可控”。

训练流程更精细

CogView4的训练过程经历“多阶段训练”和“人类偏好对齐”等淬炼，从基础分辨率到泛分辨率，再到高质量数据微调，每一步都力求精益求精。保留了Share-param DiT架构，并为不同模态使用独立的自适应层归一化，使模型更加“强大”和“高效”。

开源生态：智谱AI的全方位支持

为了让更多开发者和用户“玩转”CogView4，智谱AI表示后续将继续开源配套的ControlNet、ComfyUI支持和模型微调工具。这一举措相当于将“全套武功秘籍”奉上，用户不仅能“开箱即用”CogView4的强大功能，还能根据需求进行“深度定制”，打造更个性化、强大的图像生成模型。

项目地址：CogView4 GitHub^[1]

引用链接

[1] CogView4 GitHub: https://github.com/THUDM/CogView4

# AI快讯 # 智谱AI

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...