解锁 Wan2.1 模型推理的 AI 生成视频:轻松实现文本到视频(T2V)和图像到视频(I2V)!

CN
ComfyUI.org
2025-05-30 07:53:21

解锁 AI 驱动的视频创作:Wan2.1 模型推理(T2V & I2V)使用 Wan2.1 模型推理,释放 AI 视频创作的潜能!通过文本提示生成视频(T2V),将图像转换为动画序列(I2V),并结合 VRAM 管理、加速及分辨率控制,打造高效又流畅的工作流体验。立即开始创作,探索视频生成的无限可能!

使用场景
Video
适用场景
Video
显存
低显存(≤8GB)
阅读时间
4 分钟
查看所需模型更多 Video 工作流

工作流概览

解锁 AI 驱动的视频创作:Wan2.1 模型推理(T2V & I2V)使用 Wan2.1 模型推理,释放 AI 视频创作的潜能!通过文本提示生成视频(T2V),将图像转换为动画序列(I2V),并结合 VRAM 管理、加速及分辨率控制,打造高效又流畅的工作流体验。立即开始创作,探索视频生成的无限可能!

内容类型: Workflow

主要用途: Download

所需模型

  • Wan2.1
  • Lora

配置说明

  • 打开工作流模板前,请先安装所需模型。
  • 推荐硬件:低显存(≤8GB)。

1. 工作流概述

mbqba2sktidpcyw2femezgif-8eb361721259f3.gif

该工作流名为 “Wan2.1模型推理 t2v&i2v”,主要功能包括:

  • 文本生成视频(T2V):通过文本提示生成动态视频。

  • 图像生成视频(I2V):基于输入图像生成连贯视频(如动画风格转换)。

  • 优化功能:支持显存优化、推理加速和分辨率调整。

2. 核心模型

  • Wan2.1-I2V-14B:核心视频生成模型,支持文本和图像双输入。

  • umt5-xxl-enc:文本编码器,处理提示词。

  • open-clip-xlm-roberta:图像编码器,提取输入图像特征。

3. 关键组件(Nodes)

输入与编码

  • LoadImage:上传输入图像(I2V 模式)。

  • WanVideoImageClipEncode:编码图像为视频生成所需的嵌入向量。

  • WanVideoTextEncode:处理文本提示词(T2V 模式)。

模型加载与推理

  • WanVideoModelLoader:加载 Wan2.1 模型(支持 LoRA 适配)。

  • WanVideoSampler:执行视频生成,参数包括步数(25)、CFG值(6)等。

优化模块

  • WanVideoBlockSwap:显存优化(通过分块加载模型)。

  • WanVideoTeaCache:推理加速(缓存中间结果)。

  • WanVideoSLG:动态调整生成策略(如分阶段生成)。

后处理

  • WanVideoDecode:将潜在空间解码为图像帧。

  • VHS_VideoCombine:合成最终视频(支持 30FPS 输出)。

4. 工作流结构(Group 分组)

  1. 导入图片区

    • 输入:图像(如 透明.png),尺寸建议不超过 480x480。

    • 关键节点:LoadImageWanVideoImageClipEncode

  2. 加载器区

    • 加载模型和编码器:

      • WanVideoVAELoader(加载 VAE)。

      • LoadWanVideoT5TextEncoder(加载文本编码器)。

  3. 工作区(核心生成逻辑)

    • 文本/图像编码 → 模型推理 → 优化处理。

    • 关键节点:WanVideoSamplerWanVideoSLG

  4. 后处理区

    • 视频解码与合成:WanVideoDecodeVHS_VideoCombine

5. 输入与输出

  • 输入参数

    • 图像(I2V 模式)或文本提示(T2V 模式)。

    • 分辨率:默认 832x480(通过 WanVideoImageClipEncode 设置)。

  • 输出结果

    • 视频文件(MP4,30FPS),如 WanVideo2_1_T2V_00256.mp4

6. 注意事项

  • 显存需求:14B 模型需 16GB+ 显存,建议启用 BlockSwapTeaCache 优化。

  • 图像尺寸:过大图像需用 ImageResizeKJ 缩放,避免显存不足。

  • LoRA 适配:可选 馨染_Wan2.1 等风格适配模型。

  • 参数建议

    • SLG:14B 模型建议 blocks=16-20strat_percent=0.1-0.15

    • TeaCache:14B 模型建议 rel_l1_thresh=0.2mode=speed

常见问题