阿里云开源的文生视频万相 Wan2.1之本地部署Wan2.1-T2V-1.3B模型

本文已首发于 秋码记录
微信公众号:你我杂志刊
在这里插入图片描述

如果你也想搭建一个与秋码记录一样的网站,可以浏览我的这篇 国内 gitee.com Pages 下线了,致使众多站长纷纷改用 github、gitlab Pages 托管平台

秋码记录网站使用的主题是开源的,目前只在github.com开源。
hugo-theme-kiwi开源地址:https://github.com/zhenqicai/hugo-theme-kiwi

概述

阿里云开源了其视频生成大模型Wan2.1(万相),采用了较为宽松的Apache2.0协议

而这次对外了1.3B(极速版)和14B(专业版)两个参数规格的权重,及推理的全部代码。

这两种模型均支持文生视频(T2V)和图生视频(I2V)任务。

14B版本在权威评测集VBench中以86.22%总分超越SoraLuma等国内外模型;1.3B版本可在消费级显卡运行(仅需8.2GB显存生成480P视频),适合二次开发和研究。

  • 复杂运动生成:精准模拟人物旋转、跳跃、翻滚等动作,支持高级运镜控制
  • 物理规律建模:真实还原碰撞、反弹、切割等场景,符合现实物理规则
  • 中英文指令理解:支持长文本指令,实现场景切换、角色互动和多语言文字特效

技术原理

  1. 架构设计
    • 因果3D VAE:专为视频设计的变分自编码器,高效压缩时空信息并保持生成连贯性
    • 视频Diffusion TransformerDiT):结合扩散模型和Transformer,逐步去噪生成视频,捕捉长时程依赖关系
    • 分布式训练优化:采用DPFSDPRingAttention等混合并行策略,加速训练与推理
  2. 性能提升技术
    • 引入插件式增强块(如Enhance-A-Video),通过跨帧注意力调节提升时序一致性,减少画面模糊和跳帧问题

本地部署

我电脑的环境:

python:3.10.9

CUDA:12.4

windows11

我们还是一如既往的先创建python虚拟环境,我这里使用的是python3自带的venv来搭建虚拟环境,当然咯,你也是可以使用anacondaminiconda来创建虚拟环境。

python -m venv Wan2.1-env
cd Scripts
activate

在这里插入图片描述

随后,我们clone万相的推理代码。

git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

在这里插入图片描述

项目依赖库安装

之后我们安装torch>=2.4.0,这是官方所要求的。

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu124

在这里插入图片描述

再者我们安装项目的requirements.txt依赖文件时,发现有flash-attention这个依赖,它可是可以加速推理的一个框架。

然而,它对windows可并那么友好啊。但是flash-attention社区还是有人编译出了windowswheel,也省的我们自己去编译了。

为此,我特意将CUDA toolkit12.1升级到12.4,关于这一点,是可以从我前几篇的文章看出来的。

https://github.com/kingbri1/flash-attention/releases

在这里插入图片描述

将下载下来的wheel直接通过pip install进行安装。

pip install flash_attn-2.7.4.post1+cu124torch2.6.0cxx11abiFALSE-cp310-cp310-win_amd64.whl

在这里插入图片描述

至此,我们再来执行以下命令,来完成安装项目所需的依赖库。

pip install -r requirements.txt

在这里插入图片描述

下载模型

我们通过modelscope来下载模型。

pip install modelscope

在这里插入图片描述

我这里下载的是Wan-AI/Wan2.1-T2V-1.3B,若你要下载14B的模型,只需将1.3B换成14B即可(前提是你电脑的硬件环境允许的条件下)。

modelscope download Wan-AI/Wan2.1-T2V-1.3B --local_dir ./Wan2.1-T2V-1.3B

在这里插入图片描述

模型下载链接备注
T2V-14B🤗 Huggingface 🤖 ModelScope支持 480P 和 720P
I2V-14B-720P🤗 Huggingface 🤖 ModelScope支持 720P
I2V-14B-480P🤗 Huggingface 🤖 ModelScope支持 480P
T2V-1.3B🤗 Huggingface 🤖 ModelScope支持 480P

运行 generate.py

先是使用官方的prompt,来生成视频。

python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

在这里插入图片描述

在命令行运行总是很不方便的,那么我们是可以运行官方提供的gradio

cd gradio
python t2v_1.3B_singleGPU.py --prompt_extend_method 'local_qwen' --ckpt_dir ./Wan2.1-T2V-1.3B

在这里插入图片描述

### Wan 2.1 文生模型本地部署方法教程 #### 显卡信息检查 在开始之前,需确认计算机中的 GPU 是否满足运行需求。通过命令行工具可以检测显卡的关参数以及驱动版本是否适配深度学习框架的要求[^1]。 ```bash nvidia-smi ``` 此命令会显示当前 NVIDIA 驱动程序版本、CUDA 版本、GPU 使用率以及其他重要细节。 --- #### 模型下载与安装 对于文本到图像 (T2V) 的生成任务,可选用较小规模的 `Wan2.1-T2V-1.3B` 或更大规模的 `Wan2.1-T2V-14B` 模型。具体操作如下: ##### 安装 ModelScope 工具 ModelScope 是阿里云提供的一种便捷方式来管理模型资源。首先需要确保已安装该工具并完成配置[^3]。 ```bash pip install modelscope ``` ##### 下载目标模型 执行以下命令以获取所需模型文件至指定目录。如果硬件条件允许,建议选择更高质量的大规模模型(如 14B 参数量级),否则推荐轻量化的小规模模型(如 1.3B 参数量级)。 ```bash modelscope download Wan-AI/Wan2.1-T2V-1.3B --local_dir ./Wan2.1-T2V-1.3B ``` 或者替换为大规模模型路径: ```bash modelscope download Wan-AI/Wan2.1-T2V-14B --local_dir ./Wan2.1-T2V-14B ``` 上述过程将自动拉取预训练权重及关依赖项,并存储于指定位置以便后续调用。 --- #### 运行环境搭建 为了支持复杂计算任务,在本地环境中还需额外准备若干组件,包括但不限于 Python 解释器及其扩展库、PyTorch/Diffusers 库等基础架构软件包。 ##### 创建虚拟环境 构建独立开发空间有助于隔离不同项目间的冲突问题。 ```bash conda create -n wan21 python=3.8 conda activate wan21 ``` ##### 安装必要依赖 依据官方文档指引加载必需模块集合。 ```bash pip install torch torchvision torchaudio diffusers transformers accelerate safetensors bitsandbytes xformers gradio ``` 这些库共同构成了完整的推理管线支撑体系结构[^2]。 --- #### 启动服务端口监听机制 最后一步便是激活前端界面交互入口点,使得用户能够直观提交输入数据并通过图形化展示最终成果形式。 启动脚本通常位于解压后的根目录下,双击运行或手动触发均可生效。 ```bash cd ./Wan2.1-T2V-1.3B python app.py ``` 此时浏览器窗口应弹出链接地址指向 localhost 地址的服务页面;按照提示填写应字段后点击按钮即刻体验神奇效果啦! ---
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

甄齐才

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值