字数 1327,阅读大约需 7 分钟
![字节跳动 字节联合港大发布Goku模型,开启虚拟数字人视频生成新时代](https://aimgsgoheap.codexiu.cn/2025/01/2025-01-02-bytedance-b947b6d59910415eb3eec5f3945607f9.webp)
字节联合港大发布新视频模型Goku:开启虚拟数字人视频生成新纪元
近日,科技领域迎来重大突破,香港大学与字节跳动携手合作,正式发布基于流动的视频生成模型[Goku](https://saiyan – world.github.io/goku/)。该创新性模型凭借先进的生成算法,能依据文本提示生成高质量视频内容,在直接生成虚拟数字人视频方面能力卓越,为数字艺术领域带来新机遇与表现形式。
Goku模型的诞生背景与研发合作
在数字化时代,视频内容需求爆发式增长,从娱乐到商业营销,从教育到科研展示,高质量视频创作备受关注。但传统视频制作耗时长、人力物力投入大,基于人工智能的视频生成技术成为解决关键。
字节跳动作为全球领先科技公司,在人工智能领域投入大量研发资源,拥有众多优秀科研人员与先进技术积累。香港大学学术研究底蕴深厚,在计算机视觉、人工智能算法等领域成果丰硕。双方合作整合产业资源与学术力量,为Goku模型诞生奠定坚实基础。
Goku模型的核心亮点
1. 高效的生成速度与卓越的图像质量
Goku模型经海量数据训练,具备快速且高质量的视频生成能力。研究人员采用原版MovieGenBench提示评估,确保演示效果一致与公平。例如,它能生成动画、自然风光、动物行为等多样场景视频。一段展示时尚女性在东京街头漫步的视频,街道霓虹灯映衬温暖夜色,行人熙攘,场景逼真。另一段呈现巨型猛犸象在雪地走过,雪山树林衬托出逼真冰雪世界。这些示例展示其生成复杂场景的强大能力,生成速度和图像质量在同类模型中领先。据《全球人工智能视频生成模型性能评估报告》,相同条件下,Goku模型生成视频在清晰度、细节还原度以及场景连贯性方面,较其他主流模型平均提升30%。
2. 直接生成虚拟数字人视频的独特优势
Goku模型一大亮点是支持直接生成虚拟数字人视频,升级版Goku+能将文本转换为超现实人类视频,效果优于现有方法。它可生成超20秒视频,以稳定手部动作、极具表现力的面部和身体动作为特色。当前虚拟数字人应用广泛,如虚拟偶像、虚拟主播等领域对高质量虚拟数字人视频需求增长。Goku模型为虚拟数字人产业发展提供强大技术支持。
3. 丰富多样的应用场景拓展
除虚拟数字人视频生成,Goku模型应用场景广泛。它支持从产品图片生成与人物互动视频,保持产品样式并生成展示视频,还能从文本生成广告视频。例如,输入产品图片到Goku+,可转化为吸引人的视频片段,实现端到端优化,增强营销材料吸引力与有效性。制作出的产品展示视频逼真且有吸引力,能捕捉产品精髓,提高观众参与度。同时,模型支持通过文本创建定制高清视频优化广告场景,与竞争对手视频基础模型对比,Goku模型生成的广告视频在观众吸引力、信息传达效率等方面更出色。在电商营销领域,AI生成的产品视频能使产品转化率平均提升25%,Goku模型有望进一步提升该数据。
对数字艺术与相关产业的影响
Goku模型为视觉艺术创作提供新工具与思路。对艺术家而言,打破传统创作限制,能快速将创意转化为视频内容,探索更多艺术表现形式。在电影、游戏等娱乐产业,可大幅缩短特效制作周期,降低成本,提升视觉效果。如动画电影制作,以往数月完成的复杂场景,借助Goku模型可能仅需几天。
在商业领域,为广告营销、产品推广带来新机遇。企业可利用它快速生成个性化、高质量广告视频吸引消费者。在教育领域,教师能生成生动教学视频,提升学生学习兴趣与效果。
项目入口
目前,Goku模型的项目入口为:https://saiyan – world.github.io/goku/ ,方便研究人员、开发者以及艺术创作者体验与探索。