字数 986,阅读大约需 5 分钟

潞晨科技发布开源视频生成模型Open-Sora 2.0:低成本高性能叫板行业巨头
潞晨科技最新推出的开源视频生成模型Open-Sora 2.0,以仅20万美元的训练成本,成功打造出拥有11亿参数的大规模商业级视频生成模型,其性能在权威评测VBench中几乎追平了耗费数百万美元打造的OpenAI Sora,甚至在某些指标上超越了腾讯的HunyuanVideo等竞争对手。这一创新成果在视频生成领域引起了广泛关注。
低成本实现高性能:技术革新的秘密武器
Open-Sora 2.0之所以能够以低成本实现高性能,得益于其采用的一系列关键技术革新。首先,模型架构上延续了Open-Sora 1.2的设计思路,采用3D自编码器和Flow Matching训练框架。同时,引入了3D全注意力机制,进一步提升了视频生成质量。
为了追求极致的成本优化,Open-Sora 2.0从多个方面入手:
- • 严格的数据筛选:确保高质量的训练数据输入,从源头提升效率。
- • 低分辨率训练优先:高效学习运动信息,降低计算成本。要知道,高分辨率训练的成本可是低分辨率的几十倍。
- • 图生视频任务优先训练:加速模型收敛,进一步降低训练成本。在推理阶段,还可以通过文本生图再生视频(T2I2V),以获得更精细的视觉效果。
- • 高效的并行训练方案:结合ColossalAI和系统级优化,大幅提升计算资源利用率。各种“黑科技”加持,如高效的序列并行和ZeroDP、细粒度控制的Gradient Checkpointing、训练自动恢复机制等,让训练效率大大提升。
据估计,市面上10B以上的开源视频模型,单次训练成本动辄上百万美元,而Open-Sora 2.0将这个成本降低了5-10倍。这无疑为视频生成领域带来了福音,让更多人有机会参与到高质量视频生成的研发中来。
全面开源:推动全球视频生成领域的进步
更令人称赞的是,Open-Sora不仅开源了模型代码和权重,还开源了全流程训练代码。这一举措无疑将极大地促进整个开源生态的发展。根据第三方技术平台统计,Open-Sora的学术论文引用量在半年内就获得了近百引用,在全球开源影响力排名中稳居首位,成为全球影响力最大的开源视频生成项目之一。
降低推理成本:展望未来视频创作产业的变革
Open-Sora团队还积极探索高压缩比视频自编码器的应用,以大幅降低推理成本。他们训练了一款高压缩比(4×32×32)的视频自编码器,将单卡生成768px、5秒视频的推理时间从近30分钟缩短至3分钟以内,速度提升了10倍!这意味着未来我们能够更快地生成高质量的视频内容。
潞晨科技推出的开源视频生成模型Open-Sora 2.0,以其低成本、高性能、全面开源的特性,无疑给视频生成领域带来了一股强劲的“平价”风。它的出现,不仅缩小了与顶级闭源模型之间的差距,更降低了高质量视频生成的门槛,让更多开发者能够参与其中,共同推动视频生成技术的发展。
🔗 GitHub 开源仓库[1]
📄 技术报告[2]
引用链接
[1]
GitHub 开源仓库: https://github.com/hpcaitech/Open-Sora[2]
技术报告: https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf