阿里开源万相2.1：视频生成技术的新里程碑

字数 1075，阅读大约需 6 分钟

阿里全面开源文生视频模型万相2.1：14B和1.3B双版本上线

模型开源与版本介绍

阿里巴巴近期宣布全面开源其视频生成模型万相2.1，推出两个版本：14B专业版和1.3B极速版。这一举措为开发者和研究者提供了强大的工具，满足不同场景下的视频生成需求。

专业版14B：高性能与顶尖表现力

专业版14B以其高性能和业界顶尖的表现力著称，适用于对视频质量有极高要求的场景。该版本能够处理复杂运动、还原真实物理规律，并提升影视质感，为专业创作者提供了强有力的支持。在权威评测集VBench中，万相以总分86.22%高居榜首，远超其他视频生成模型。这一成绩充分证明了14B专业版在视频生成领域的领先地位。

极速版1.3B：消费级显卡的福音

极速版1.3B则更注重于在消费级显卡上的运行效率。仅需8.2GB显存，即可生成480P高质量视频，这对于二次模型开发和学术研究尤为适用。该版本的推出降低了视频生成技术的门槛，使得更多人能够参与到这一领域的创新中来。万相2.1已在GitHub、Hugging Face等平台开源，支持多种主流框架，为开发者和研究者提供了便利的使用体验。

技术创新与优化

万相在处理复杂运动、还原真实物理规律、提升影视质感及优化指令遵循方面展现出显著优势。这得益于一系列技术创新，包括自研的高效3D因果VAE模块，成功实现256倍无损视频隐空间压缩，支持任意长度视频的高效编码与解码。此外，万相在生成视频的过程中，采用了基于主流DiT结构的Full Attention机制，有效建模时空依赖性，确保生成视频的高质量与一致性。

训练策略与数据处理

万相的训练策略采用6阶段分步训练法，从初步的低分辨率数据训练逐步引入高分辨率数据，以保证模型在不同条件下的优异表现。在数据处理方面，万相采取了严格的清洗流程，以确保训练数据的高质量。这些措施共同提升了模型的生成能力和鲁棒性。

训练与推理效率优化

在训练与推理效率优化方面，万相采用了多种先进技术，如分布式训练策略、激活值优化和显存管理，确保模型训练的稳定性与推理效率。通过与阿里云训练集群的智能调度结合，模型在训练过程中能够自动识别故障并快速重启，确保训练过程的顺利进行。这些优化措施使得万相能够高效地处理大规模数据集，并快速生成高质量的视频内容。

应用前景与社区支持

借助于万相，用户可以轻松实现高质量的视频生成，尤其在广告和短视频领域，满足了对创意的高要求。万相的开源不仅为开发者和研究者提供了强大的工具，也为整个视频生成技术的发展注入了新的活力。魔塔社区入口：https://modelscope.cn/organization/Wan-AI

通过以上介绍，我们可以看到阿里巴巴在视频生成领域的深厚积累和创新能力。万相2.1的开源将进一步推动视频生成技术的发展，为创作者、开发者和企业用户提供更多的可能性。无论是专业版14B还是极速版1.3B，都将成为视频生成领域的重要力量，引领行业的创新与进步。

# AI快讯 # 阿里巴巴

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...