从图像到视频:深入解析Wan2.1-I2V工作流

CN
ComfyUI.org
2025-04-01 14:20:43

使用阿里巴巴的Wan2.1模型解锁AI驱动的视频生成!学习如何通过此工作流指南,将静态图像转化为惊艳视频。

使用场景
Video
适用场景
Video
模型
Wan2.1
显存
低显存(≤8GB)
阅读时间
3 分钟
查看所需模型更多 Video 工作流

工作流概览

使用阿里巴巴的Wan2.1模型解锁AI驱动的视频生成!学习如何通过此工作流指南,将静态图像转化为惊艳视频。

内容类型: Workflow

主要用途: Download

所需模型

  • Wan2.1

配置说明

  • 打开工作流模板前,请先安装所需模型。
  • 推荐硬件:低显存(≤8GB)。

1. 工作流概述

m8yl4m6u2spynalas0730227e81229577c45db24e1bd38380080f3d5c376c96a73fea21b1069e3d2a02.gif

该工作流基于阿里云通义万象Wan2.1模型,实现从静态图像生成动态视频(Image-to-Video)。核心功能包括:

  • 通过CLIP视觉编码器提取图像特征

  • 结合T5文本编码器处理提示词

  • 使用14B参数的Wan2.1-I2V模型生成视频潜变量

  • 最终输出为WEBP动画或MP4视频


2. 核心模型

模型名称

功能说明

文件来源

Wan2.1-I2V-14B

视频生成主模型(480P分辨率)

Wan2_1-I2V-14B-480P_fp8_e4m3fn.safetensors

UMT5-XXL文本编码器

处理多语言提示词

umt5-xxl-enc-fp8_e4m3fn.safetensors

OpenCLIP视觉编码器

提取图像语义特征

open-clip-xlm-roberta-large-vit-huge-14_visual_fp16.safetensors


3. 关键组件

组件名称

功能说明

安装方式

特殊依赖

WanVideoSampler

控制视频生成采样(帧数/CFG值)

需安装通义万象插件

依赖主模型和VAE

WanVideoImageClipEncode

将输入图像编码为潜变量

同上

需CLIP视觉模型

VHS_VideoCombine

视频帧合成(支持添加音频)

安装ComfyUI-VideoHelperSuite插件

FFmpeg环境


4. 工作流结构

  • Group 1: 输入预处理

    • LoadImage: 加载输入图像(示例尺寸:576x1024)

    • WanVideoTextEncode: 处理提示词(如"古装美女微笑转身")

  • Group 2: 模型加载

    • LoadWanVideoT5TextEncoder: 加载T5文本编码器

    • WanVideoModelLoader: 加载14B视频生成模型

  • Group 3: 视频生成

    • WanVideoSampler: 生成潜变量(参数:30帧,CFG=6)

    • WanVideoDecode: 通过VAE解码为图像序列


5. 输入与输出

  • 必要输入

    • 图像文件(PNG/JPG)

    • 正面提示词(如风格描述)

    • 负面提示词(如"低质量,静态画面")

  • 输出内容

    • 动态WEBP(默认)或MP4视频

    • 分辨率:272x272(可调整)


6. 注意事项

⚠️ 常见问题

  1. 显存需求:14B模型需≥16GB显存,建议启用bf16精度

  2. 插件依赖:需手动安装:

    git clone https://github.com/AI-ModelScope/comfyui-wanvideo-plugin
  3. 模型下载:所有.safetensors文件需放入models/wanvideo/目录

常见问题