字数 1075,阅读大约需 6 分钟

阿里全面开源文生视频模型万相2.1:14B和1.3B双版本上线
模型开源与版本介绍
阿里巴巴近期宣布全面开源其视频生成模型万相2.1,推出两个版本:14B专业版和1.3B极速版。这一举措为开发者和研究者提供了强大的工具,满足不同场景下的视频生成需求。
专业版14B:高性能与顶尖表现力
专业版14B以其高性能和业界顶尖的表现力著称,适用于对视频质量有极高要求的场景。该版本能够处理复杂运动、还原真实物理规律,并提升影视质感,为专业创作者提供了强有力的支持。在权威评测集VBench中,万相以总分86.22%高居榜首,远超其他视频生成模型。这一成绩充分证明了14B专业版在视频生成领域的领先地位。
极速版1.3B:消费级显卡的福音
极速版1.3B则更注重于在消费级显卡上的运行效率。仅需8.2GB显存,即可生成480P高质量视频,这对于二次模型开发和学术研究尤为适用。该版本的推出降低了视频生成技术的门槛,使得更多人能够参与到这一领域的创新中来。万相2.1已在GitHub、Hugging Face等平台开源,支持多种主流框架,为开发者和研究者提供了便利的使用体验。
技术创新与优化
万相在处理复杂运动、还原真实物理规律、提升影视质感及优化指令遵循方面展现出显著优势。这得益于一系列技术创新,包括自研的高效3D因果VAE模块,成功实现256倍无损视频隐空间压缩,支持任意长度视频的高效编码与解码。此外,万相在生成视频的过程中,采用了基于主流DiT结构的Full Attention机制,有效建模时空依赖性,确保生成视频的高质量与一致性。
训练策略与数据处理
万相的训练策略采用6阶段分步训练法,从初步的低分辨率数据训练逐步引入高分辨率数据,以保证模型在不同条件下的优异表现。在数据处理方面,万相采取了严格的清洗流程,以确保训练数据的高质量。这些措施共同提升了模型的生成能力和鲁棒性。
训练与推理效率优化
在训练与推理效率优化方面,万相采用了多种先进技术,如分布式训练策略、激活值优化和显存管理,确保模型训练的稳定性与推理效率。通过与阿里云训练集群的智能调度结合,模型在训练过程中能够自动识别故障并快速重启,确保训练过程的顺利进行。这些优化措施使得万相能够高效地处理大规模数据集,并快速生成高质量的视频内容。
应用前景与社区支持
借助于万相,用户可以轻松实现高质量的视频生成,尤其在广告和短视频领域,满足了对创意的高要求。万相的开源不仅为开发者和研究者提供了强大的工具,也为整个视频生成技术的发展注入了新的活力。魔塔社区入口:https://modelscope.cn/organization/Wan-AI
通过以上介绍,我们可以看到阿里巴巴在视频生成领域的深厚积累和创新能力。万相2.1的开源将进一步推动视频生成技术的发展,为创作者、开发者和企业用户提供更多的可能性。无论是专业版14B还是极速版1.3B,都将成为视频生成领域的重要力量,引领行业的创新与进步。