利用AI技术将您的视频转化为风格化动画

CN
ComfyUI.org
2025-04-08 12:55:45

通过我们的工作流程,释放视频风格化的强大潜力!使用 Wan2.1 模型、AnimeLineArt 和 DepthAnything,将输入视频转化为惊艳的动画。探索如何利用 ControlNet、T5 文本编码和帧插值技术来创造动态内容。了解更多,马上开始吧!

使用场景
Video
适用场景
Video
关键节点
Controlnet
显存
低显存(≤8GB)
阅读时间
4 分钟
查看所需模型更多 Video 工作流

工作流概览

通过我们的工作流程,释放视频风格化的强大潜力!使用 Wan2.1 模型、AnimeLineArt 和 DepthAnything,将输入视频转化为惊艳的动画。探索如何利用 ControlNet、T5 文本编码和帧插值技术来创造动态内容。了解更多,马上开始吧!

内容类型: Workflow

主要用途: Download

所需模型

  • Flux
  • Wan2.1
  • Controlnet

所需节点

  • Controlnet

配置说明

  • 打开工作流模板前,请先安装所需模型。
  • 推荐硬件:低显存(≤8GB)。
  • 使用上方下载按钮将工作流 JSON 导入 ComfyUI。

1. 工作流概述

m98i7zuf5bhxi4wr282ac621c4a9c97aa3b0c527bbdaf51d7df54fe38ef8bb9f0fce98fbeb54732ba22.gif
  • 功能:基于Wan2.1模型实现视频转绘动画,通过线稿(AnimeLineArt)和深度图(DepthAnything)双重控制,将输入视频转换为风格化动画视频。

  • 核心技术:结合ControlNet控制、T5文本编码和视频帧插值技术,生成高一致性动态内容。

2. 核心模型

模型名称

功能说明

Wan2.1-Fun-Control-14B

主模型,负责视频帧生成,支持FP8低精度推理优化。

AnimeLineArtPreprocessor

提取输入视频的线稿结构,用于控制生成风格。

DepthAnythingPreprocessor

生成深度图,增强视频的空间层次感。

Florence2-Flux-Large

图像描述模型,自动生成视频帧的文本提示词(Caption)。

3. 关键组件与安装

组件名称

功能说明

安装方法

WanVideoWrapper

视频生成核心节点组(含模型加载、采样、编码等)。

通过GitHub安装:ComfyUI-WanVideoWrapper

ControlNet Aux

提供线稿和深度图预处理。

通过ComfyUI Manager安装:comfyui-controlnet-aux

Video Helper Suite

视频加载与合成工具。

通过ComfyUI Manager安装:comfyui-videohelpersuite

Florence2

图像描述生成。

通过GitHub安装:comfyui-florence2

特殊依赖模型

  • Wan2.1-Fun-Control-14B_fp8_e4m3fn.safetensors下载链接

  • umt5-xxl-enc-bf16.safetensors(T5文本编码器)

4. 工作流结构

  1. 输入处理组上传视频及参考图

    • 输入:原始视频(通过VHS_LoadVideo加载)、参考图片(LoadImage)。

    • 处理

      • 视频分帧 → 线稿提取(AnimeLineArtPreprocessor) + 深度图生成(DepthAnythingPreprocessor)。

      • 参考图生成描述文本(Florence2Run)。

    • 输出:预处理后的图像和文本提示词。

  2. 模型加载组wan模型

    • 加载Wan2.1主模型、T5文本编码器、VAE等,配置编译参数(TorchCompileSettings)和显存优化(BlockSwap)。

  3. 生成组采样生成

    • 输入:预处理图像、文本提示、控制参数(线稿+深度图)。

    • 处理

      • 文本编码(WanVideoTextEncode) → 图像编码(WanVideoImageToVideoEncode) → 采样(WanVideoSampler)。

    • 输出:生成视频的潜在表示(Latent)。

  4. 输出组

    • 潜在表示解码为图像(WanVideoDecode) → 合成视频(VHS_VideoCombine)。

5. 输入与输出

  • 输入参数

    • 视频文件(MP4)、参考图片(PNG)。

    • 分辨率:默认768x768(通过ImageResizeKJ调整)。

    • 提示词:自动生成(Florence2)或手动输入(示例含正向/反向提示)。

  • 输出结果

    • 风格化视频(H.264 MP4格式,帧率16fps)。

6. 注意事项

  • 显存需求:至少16GB GPU(推荐24GB以上,因Wan2.1模型较大)。

  • 常见错误

    • 视频帧数超限:需调整frame_load_cap(当前设为81帧)。

    • 线稿提取失败:检查输入视频是否为动态内容。

  • 优化建议

    • 启用fp8低精度模式减少显存占用。

    • 使用BlockSwap参数优化显存管理。

常见问题