探索通义万相Wan2.1：AI视频生成的未来

字数 1082，阅读大约需 6 分钟

模型介绍与技术亮点

模型概述

通义万相Wan2.1是一款专注于高质量视频生成的AI模型，基于主流的DiT（Diffusion Transformer）和线性噪声轨迹Flow Matching范式。在权威评测集Vbench中，Wan2.1以总分86.22%的成绩登顶榜首，领先其他知名视频生成模型，如Sora、Minimax、Luma、Gen3和Pika等。

技术创新

1. 3D因果VAE模块：Wan2.1实现了256倍无损视频隐空间压缩，并通过特征缓存机制支持任意长度视频的高效编解码。这一创新减少了29%的推理时内存占用，并在单个A800 GPU环境下，使视频重建速度比现有方法快2.5倍。
2. 视频Diffusion Transformer架构：该架构采用Full Attention机制，有效建模长时程时空依赖，生成高质量且时空一致的视频。这对于处理复杂运动、还原真实物理规律以及提升影视质感至关重要。
3. 训练策略：Wan2.1采用6阶段分步训练法，从低分辨率图像数据的预训练逐步过渡到高分辨率视频数据的训练，最后通过高质量标注数据进行微调。这种策略确保了模型在不同分辨率和复杂场景下的出色表现。

数据处理

Wan2.1设计了四步数据清洗流程，重点关注基础维度、视觉质量和运动质量。这一流程能够从嘈杂的初始数据集中筛选出高质量且多样化的数据，为模型的有效训练提供基础。

训练与推理效率优化

1. 训练阶段：Wan2.1针对文本、视频编码模块和DiT模块采用不同的分布式策略，并通过高效的策略切换避免计算冗余。
2. 显存优化：采用分层的显存优化策略，结合PyTorch显存管理机制解决显存碎片问题。这使得在8.2G显存的条件下即可生成480P视频。
3. 推理阶段：使用FSDP（Fully Sharded Data Parallel）和2D CP（Checkpointing）的组合方法进行多卡分布式加速，并通过量化方法进一步提升性能。
目前，通义万相Wan2.1已在GitHub（链接^[1]）、Hugging Face（链接^[2]）和魔搭社区等平台开源，支持多种主流框架。开发者和研究者可以通过Gradio快速体验，或利用xDiT并行加速推理提升效率。同时，该模型正在加速接入Diffusers和ComfyUI，以简化一键推理与部署流程，降低开发门槛。

模型应用

通义万相Wan2.1在单个A800 GPU环境下，视频重建速度比现有方法快2.5倍，这一显著的性能优势为视频生成领域带来了革命性的改变。开发者和研究者可以通过Gradio快速体验Wan2.1的强大功能，或利用xDiT并行加速推理提升效率。Wan2.1支持多种主流框架，为用户提供了灵活的选择，无论是快速原型开发还是高效生产部署，都能轻松实现。

开源信息

Wan2.1已在GitHub、Hugging Face和魔搭社区等平台开源，这一举措为AI视频生成领域的创新与应用提供了强大的推动力。通过开源，Wan2.1为创作者、开发者和企业用户提供了强大的工具，助力他们拥抱AI时代。同时，Wan2.1正在加速接入Diffusers和ComfyUI，以简化一键推理与部署流程，降低开发门槛，让更多人能够参与到AI视频生成的创新中来。

引用链接

[1] 链接: https://github.com/Wan-Video
[2] 链接: https://huggingface.co/Wan-AI

# AI快讯 # 阿里巴巴

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...