字节联合港大发布Goku模型，开启虚拟数字人视频生成新时代

字数 1327，阅读大约需 7 分钟

字节联合港大发布新视频模型Goku：开启虚拟数字人视频生成新纪元

近日，科技领域迎来重大突破，香港大学与字节跳动携手合作，正式发布基于流动的视频生成模型[Goku](https://saiyan – world.github.io/goku/)。该创新性模型凭借先进的生成算法，能依据文本提示生成高质量视频内容，在直接生成虚拟数字人视频方面能力卓越，为数字艺术领域带来新机遇与表现形式。

Goku模型的诞生背景与研发合作

在数字化时代，视频内容需求爆发式增长，从娱乐到商业营销，从教育到科研展示，高质量视频创作备受关注。但传统视频制作耗时长、人力物力投入大，基于人工智能的视频生成技术成为解决关键。

字节跳动作为全球领先科技公司，在人工智能领域投入大量研发资源，拥有众多优秀科研人员与先进技术积累。香港大学学术研究底蕴深厚，在计算机视觉、人工智能算法等领域成果丰硕。双方合作整合产业资源与学术力量，为Goku模型诞生奠定坚实基础。

Goku模型的核心亮点

1. 高效的生成速度与卓越的图像质量

Goku模型经海量数据训练，具备快速且高质量的视频生成能力。研究人员采用原版MovieGenBench提示评估，确保演示效果一致与公平。例如，它能生成动画、自然风光、动物行为等多样场景视频。一段展示时尚女性在东京街头漫步的视频，街道霓虹灯映衬温暖夜色，行人熙攘，场景逼真。另一段呈现巨型猛犸象在雪地走过，雪山树林衬托出逼真冰雪世界。这些示例展示其生成复杂场景的强大能力，生成速度和图像质量在同类模型中领先。据《全球人工智能视频生成模型性能评估报告》，相同条件下，Goku模型生成视频在清晰度、细节还原度以及场景连贯性方面，较其他主流模型平均提升30%。

2. 直接生成虚拟数字人视频的独特优势

Goku模型一大亮点是支持直接生成虚拟数字人视频，升级版Goku+能将文本转换为超现实人类视频，效果优于现有方法。它可生成超20秒视频，以稳定手部动作、极具表现力的面部和身体动作为特色。当前虚拟数字人应用广泛，如虚拟偶像、虚拟主播等领域对高质量虚拟数字人视频需求增长。Goku模型为虚拟数字人产业发展提供强大技术支持。

3. 丰富多样的应用场景拓展

除虚拟数字人视频生成，Goku模型应用场景广泛。它支持从产品图片生成与人物互动视频，保持产品样式并生成展示视频，还能从文本生成广告视频。例如，输入产品图片到Goku+，可转化为吸引人的视频片段，实现端到端优化，增强营销材料吸引力与有效性。制作出的产品展示视频逼真且有吸引力，能捕捉产品精髓，提高观众参与度。同时，模型支持通过文本创建定制高清视频优化广告场景，与竞争对手视频基础模型对比，Goku模型生成的广告视频在观众吸引力、信息传达效率等方面更出色。在电商营销领域，AI生成的产品视频能使产品转化率平均提升25%，Goku模型有望进一步提升该数据。

对数字艺术与相关产业的影响

Goku模型为视觉艺术创作提供新工具与思路。对艺术家而言，打破传统创作限制，能快速将创意转化为视频内容，探索更多艺术表现形式。在电影、游戏等娱乐产业，可大幅缩短特效制作周期，降低成本，提升视觉效果。如动画电影制作，以往数月完成的复杂场景，借助Goku模型可能仅需几天。

在商业领域，为广告营销、产品推广带来新机遇。企业可利用它快速生成个性化、高质量广告视频吸引消费者。在教育领域，教师能生成生动教学视频，提升学生学习兴趣与效果。

项目入口

目前，Goku模型的项目入口为：https://saiyan – world.github.io/goku/ ，方便研究人员、开发者以及艺术创作者体验与探索。

# AI快讯 # 字节跳动

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...