从图像到视频:深入解析Wan2.1-I2V工作流
使用阿里巴巴的Wan2.1模型解锁AI驱动的视频生成!学习如何通过此工作流指南,将静态图像转化为惊艳视频。
工作流概览
使用阿里巴巴的Wan2.1模型解锁AI驱动的视频生成!学习如何通过此工作流指南,将静态图像转化为惊艳视频。
内容类型: Workflow
主要用途: Download
所需模型
- Wan2.1
配置说明
- 打开工作流模板前,请先安装所需模型。
- 推荐硬件:低显存(≤8GB)。
1. 工作流概述

该工作流基于阿里云通义万象Wan2.1模型,实现从静态图像生成动态视频(Image-to-Video)。核心功能包括:
通过CLIP视觉编码器提取图像特征
结合T5文本编码器处理提示词
使用14B参数的Wan2.1-I2V模型生成视频潜变量
最终输出为WEBP动画或MP4视频
2. 核心模型
模型名称 | 功能说明 | 文件来源 |
|---|---|---|
Wan2.1-I2V-14B | 视频生成主模型(480P分辨率) |
|
UMT5-XXL文本编码器 | 处理多语言提示词 |
|
OpenCLIP视觉编码器 | 提取图像语义特征 |
|
3. 关键组件
组件名称 | 功能说明 | 安装方式 | 特殊依赖 |
|---|---|---|---|
WanVideoSampler | 控制视频生成采样(帧数/CFG值) | 需安装通义万象插件 | 依赖主模型和VAE |
WanVideoImageClipEncode | 将输入图像编码为潜变量 | 同上 | 需CLIP视觉模型 |
VHS_VideoCombine | 视频帧合成(支持添加音频) | 安装 | FFmpeg环境 |
4. 工作流结构
Group 1: 输入预处理
LoadImage: 加载输入图像(示例尺寸:576x1024)
WanVideoTextEncode: 处理提示词(如"古装美女微笑转身")
Group 2: 模型加载
LoadWanVideoT5TextEncoder: 加载T5文本编码器
WanVideoModelLoader: 加载14B视频生成模型
Group 3: 视频生成
WanVideoSampler: 生成潜变量(参数:30帧,CFG=6)
WanVideoDecode: 通过VAE解码为图像序列
5. 输入与输出
必要输入:
图像文件(PNG/JPG)
正面提示词(如风格描述)
负面提示词(如"低质量,静态画面")
输出内容:
动态WEBP(默认)或MP4视频
分辨率:272x272(可调整)
6. 注意事项
⚠️ 常见问题:
显存需求:14B模型需≥16GB显存,建议启用
bf16精度插件依赖:需手动安装:
git clone https://github.com/AI-ModelScope/comfyui-wanvideo-plugin模型下载:所有
.safetensors文件需放入models/wanvideo/目录