潞晨科技Open-Sora 2.0：低成本高性能视频生成模型挑战行业巨头

字数 986，阅读大约需 5 分钟

潞晨科技发布开源视频生成模型Open-Sora 2.0：低成本高性能叫板行业巨头

潞晨科技最新推出的开源视频生成模型Open-Sora 2.0，以仅20万美元的训练成本，成功打造出拥有11亿参数的大规模商业级视频生成模型，其性能在权威评测VBench中几乎追平了耗费数百万美元打造的OpenAI Sora，甚至在某些指标上超越了腾讯的HunyuanVideo等竞争对手。这一创新成果在视频生成领域引起了广泛关注。

低成本实现高性能：技术革新的秘密武器

Open-Sora 2.0之所以能够以低成本实现高性能，得益于其采用的一系列关键技术革新。首先，模型架构上延续了Open-Sora 1.2的设计思路，采用3D自编码器和Flow Matching训练框架。同时，引入了3D全注意力机制，进一步提升了视频生成质量。

为了追求极致的成本优化，Open-Sora 2.0从多个方面入手：

• 严格的数据筛选：确保高质量的训练数据输入，从源头提升效率。
• 低分辨率训练优先：高效学习运动信息，降低计算成本。要知道，高分辨率训练的成本可是低分辨率的几十倍。
• 图生视频任务优先训练：加速模型收敛，进一步降低训练成本。在推理阶段，还可以通过文本生图再生视频（T2I2V），以获得更精细的视觉效果。
• 高效的并行训练方案：结合ColossalAI和系统级优化，大幅提升计算资源利用率。各种“黑科技”加持，如高效的序列并行和ZeroDP、细粒度控制的Gradient Checkpointing、训练自动恢复机制等，让训练效率大大提升。

据估计，市面上10B以上的开源视频模型，单次训练成本动辄上百万美元，而Open-Sora 2.0将这个成本降低了5-10倍。这无疑为视频生成领域带来了福音，让更多人有机会参与到高质量视频生成的研发中来。

全面开源：推动全球视频生成领域的进步

更令人称赞的是，Open-Sora不仅开源了模型代码和权重，还开源了全流程训练代码。这一举措无疑将极大地促进整个开源生态的发展。根据第三方技术平台统计，Open-Sora的学术论文引用量在半年内就获得了近百引用，在全球开源影响力排名中稳居首位，成为全球影响力最大的开源视频生成项目之一。

降低推理成本：展望未来视频创作产业的变革

Open-Sora团队还积极探索高压缩比视频自编码器的应用，以大幅降低推理成本。他们训练了一款高压缩比（4×32×32）的视频自编码器，将单卡生成768px、5秒视频的推理时间从近30分钟缩短至3分钟以内，速度提升了10倍！这意味着未来我们能够更快地生成高质量的视频内容。

潞晨科技推出的开源视频生成模型Open-Sora 2.0，以其低成本、高性能、全面开源的特性，无疑给视频生成领域带来了一股强劲的“平价”风。它的出现，不仅缩小了与顶级闭源模型之间的差距，更降低了高质量视频生成的门槛，让更多开发者能够参与其中，共同推动视频生成技术的发展。

🔗 GitHub 开源仓库^[1]
📄 技术报告^[2]

引用链接

[1] GitHub 开源仓库: https://github.com/hpcaitech/Open-Sora
[2] 技术报告: https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf

# AI快讯 # AI视频

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...