What models does this workflow require?

模型名称	功能说明
Wan2.1-Fun-Control-14B	主模型，负责视频帧生成，支持FP8低精度推理优化。
AnimeLineArtPreprocessor	提取输入视频的线稿结构，用于控制生成风格。
DepthAnythingPreprocessor	生成深度图，增强视频的空间层次感。
Florence2-Flux-Large	图像描述模型，自动生成视频帧的文本提示词（Caption）。

3. 关键组件与安装

组件名称	功能说明	安装方法
WanVideoWrapper	视频生成核心节点组（含模型加载、采样、编码等）。	通过GitHub安装：`ComfyUI-WanVideoWrapper`
ControlNet Aux	提供线稿和深度图预处理。	通过ComfyUI Manager安装：`comfyui-controlnet-aux`
Video Helper Suite	视频加载与合成工具。	通过ComfyUI Manager安装：`comfyui-videohelpersuite`
Florence2	图像描述生成。	通过GitHub安装：`comfyui-florence2`

特殊依赖模型：

Wan2.1-Fun-Control-14B_fp8_e4m3fn.safetensors（下载链接）
umt5-xxl-enc-bf16.safetensors（T5文本编码器）

4. 工作流结构

输入处理组（上传视频及参考图）
- 输入：原始视频（通过VHS_LoadVideo加载）、参考图片（LoadImage）。
- 处理：
  - 视频分帧 → 线稿提取（AnimeLineArtPreprocessor） + 深度图生成（DepthAnythingPreprocessor）。
  - 参考图生成描述文本（Florence2Run）。
- 输出：预处理后的图像和文本提示词。
模型加载组（wan模型）
- 加载Wan2.1主模型、T5文本编码器、VAE等，配置编译参数（TorchCompileSettings）和显存优化（BlockSwap）。
生成组（采样生成）
- 输入：预处理图像、文本提示、控制参数（线稿+深度图）。
- 处理：
  - 文本编码（WanVideoTextEncode） → 图像编码（WanVideoImageToVideoEncode） → 采样（WanVideoSampler）。
- 输出：生成视频的潜在表示（Latent）。
输出组
- 潜在表示解码为图像（WanVideoDecode） → 合成视频（VHS_VideoCombine）。

5. 输入与输出

输入参数：
- 视频文件（MP4）、参考图片（PNG）。
- 分辨率：默认768x768（通过ImageResizeKJ调整）。
- 提示词：自动生成（Florence2）或手动输入（示例含正向/反向提示）。
输出结果：
- 风格化视频（H.264 MP4格式，帧率16fps）。

6. 注意事项

显存需求：至少16GB GPU（推荐24GB以上，因Wan2.1模型较大）。
常见错误：
- 视频帧数超限：需调整frame_load_cap（当前设为81帧）。
- 线稿提取失败：检查输入视频是否为动态内容。
优化建议：
- 启用fp8低精度模式减少显存占用。
- 使用BlockSwap参数优化显存管理。

workflow

利用AI技术将您的视频转化为风格化动画

工作流概览

所需模型

所需节点

配置说明

1. 工作流概述

2. 核心模型

3. 关键组件与安装

4. 工作流结构

5. 输入与输出

6. 注意事项

常见问题

摘要

章节

workflow

利用AI技术将您的视频转化为风格化动画

工作流概览

所需模型

所需节点

配置说明

1. 工作流概述

2. 核心模型

3. 关键组件与安装

4. 工作流结构

5. 输入与输出

6. 注意事项

常见问题

What models does this workflow require?

How much VRAM is recommended?

Can this workflow be used commercially?

Which ComfyUI nodes are involved?

相关工作流

按使用场景

按模型

按节点

摘要

章节