解锁文本生成视频的强大能力,体验阿里云Wan2.1模型
使用阿里云Wan2.1模型,通过文本提示生成动态视频!学习如何使用此文本生成视频工作流程,支持中文、可自定义帧率和分辨率。探索核心模型、关键节点和工作流程结构。
工作流概览
使用阿里云Wan2.1模型,通过文本提示生成动态视频!学习如何使用此文本生成视频工作流程,支持中文、可自定义帧率和分辨率。探索核心模型、关键节点和工作流程结构。
内容类型: Workflow
主要用途: Download
所需模型
- Wan2.1
配置说明
- 打开工作流模板前,请先安装所需模型。
- 推荐硬件:低显存(≤8GB)。
1. 工作流概述

该工作流基于**通义万相2.1(Wan2.1)模型实现文本生成视频(Text-to-Video, T2V)**功能,通过组合文本编码、视频扩散模型和VAE解码等模块,生成动态视频内容。核心特点包括:
支持中文提示词输入(如示例中的"滑雪的男人")
可配置视频帧率(默认16fps)和分辨率(480x768)
包含负面提示词过滤低质量内容
2. 核心模型
模型名称 | 功能说明 | 安装方式 |
|---|---|---|
Wan2.1-T2V-1.3B | 视频扩散主模型 | 需手动下载 |
umt5-xxl-enc | 中文文本编码器 | 需单独下载并放置到 |
Wan2.1_VAE | 视频潜在空间解码器 | 需手动下载模型文件 |
3. 关键组件
LoadWanVideoT5TextEncoder
加载中文文本编码模型umt5-xxl-enc,需注意选择bf16精度以减少显存占用。WanVideoTextEncode
处理正面/负面提示词,输出文本嵌入向量。示例中负面提示词包含常见低质量内容过滤项。WanVideoModelLoader
加载视频扩散主模型,支持fp32/fp16精度和显存优化选项(如offload_device)。WanVideoSampler
核心采样器,参数包括:steps: 10(采样步数较少,适合视频生成)cfg_scale: 6(较低值使生成更自由)sampler: dpm++(平衡速度与质量)
VHS_VideoCombine
将生成的图像序列合成为MP4视频,可配置:帧率(16fps)
输出格式(H.264编码,CRF=19)
文件名前缀(
WanVideo2_1_T2V)
4. 工作流结构
Group 1: 文本处理
输入: 中文提示词(如"滑雪的男人")
输出: 文本嵌入向量
关键节点:
LoadWanVideoT5TextEncoder→WanVideoTextEncode
Group 2: 视频生成
输入: 文本嵌入 + 空图像嵌入(480x768)
输出: 潜在空间视频数据
关键节点:
WanVideoSampler
Group 3: 视频合成
输入: 解码后的图像序列
输出: MP4视频文件
关键节点:
WanVideoDecode→VHS_VideoCombine
5. 输入输出规范
输入参数:
分辨率: 480x768(通过
WanVideoEmptyEmbeds设置)种子值: 固定或随机(示例中为
1057359483639287)提示词: 中文自然语言(需避免复杂句式)
输出结果:
MP4视频文件(默认保存到ComfyUI输出目录)
包含元数据(如生成参数)
6. 注意事项
⚠️ 显存需求
需至少12GB显存(推荐16GB以上)
可启用
offload_device选项优化资源
⚠️ 模型安装
所有Wan2.1相关模型需从官方渠道手动下载
文本编码器模型路径:
models/wan_t5/umt5-xxl-enc-bf16.safetensors
⚠️ 兼容性问题
依赖
ComfyUI-WanVideoWrapper和VideoHelperSuite插件需通过ComfyUI Manager安装依赖项