从静态姿势到动态视频播放:掌握通义万相 Fun-ControlNet 的视频生成技术

CN
ComfyUI.org
2025-05-30 07:45:57

通义万相 WAN2.1-Fun ControlNet 视频生成:通过姿势/深度控制与风格控制,创建动态视频。了解此工作流程如何生成视频、控制内容并提升分辨率。

使用场景
Video
适用场景
Video
关键节点
Controlnet
Upscaler
显存
低显存(≤8GB)
阅读时间
4 分钟
查看所需模型更多 Video 工作流

工作流概览

通义万相 WAN2.1-Fun ControlNet 视频生成:通过姿势/深度控制与风格控制,创建动态视频。了解此工作流程如何生成视频、控制内容并提升分辨率。

内容类型: Workflow

主要用途: Download

所需模型

  • Wan2.1
  • Controlnet

所需节点

  • Controlnet
  • Upscaler

配置说明

  • 打开工作流模板前,请先安装所需模型。
  • 推荐硬件:低显存(≤8GB)。

1. 工作流概述

mbknzpz87etoq1wedb图片压缩15+.png

该工作流名为 “通义万象-WAN2.1-Fun控制网视频生成【姿势/深度图控制】”,主要用于:

  • 视频生成:基于输入的控制视频(如姿势、深度图)生成新的动态视频。

  • 风格控制:通过 Fun-ControlNet 实现视频内容的精确控制(如人物动作、场景深度)。

  • 后处理:包含视频超分辨率放大、帧插值(补帧)和最终合成。

2. 核心模型

  • WAN2.1-Fun-ControlNet:核心视频生成模型,支持姿势、深度图等多模态控制。

  • Meta-Llama-3.1-8B:用于反推输入图像的提示词(Captioning)。

  • FILM VFI:帧插值模型,提升视频流畅度。

  • 4x_foolhardy_Remacri:超分辨率模型,用于视频放大。

3. 关键组件(Nodes)

视频生成部分

  • WanVideoModelLoader:加载 WAN2.1-Fun-ControlNet 模型。

  • WanVideoSampler:执行视频生成采样,支持参数调节(如步数、CFG值)。

  • WanVideoDecode:将潜在空间(Latent)解码为图像帧。

控制信号处理

  • AIO_Preprocessor:预处理输入的控制图(如姿势/深度图)。

  • WanVideoControlEmbeds:生成控制信号的嵌入表示。

后处理部分

  • FILM VFI:帧插值补帧。

  • ImageUpscaleWithModel:使用超分模型放大视频分辨率。

  • VHS_VideoCombine:合成最终视频(支持音频合并)。

辅助工具

  • Joy_caption_two:基于 Meta-Llama-3.1 反推图像提示词。

  • easy cleanGpuUsed:清理显存,避免溢出。

4. 工作流结构(Group 分组)

  1. 输入控制视频组

    • 输入:上传视频或图像(如姿势图)。

    • 关键节点:VHS_LoadVideoImageResizeKJ(调整分辨率)。

  2. Fun-Control 控制组

    • 输入:控制信号(如深度图)、提示词、模型参数。

    • 关键节点:WanVideoSamplerWanVideoControlEmbeds

  3. 参考图提示词反推组

    • 输入:参考图像。

    • 关键节点:Joy_caption_two(生成描述文本)。

  4. 视频后处理组

    • 输入:生成的原始视频帧。

    • 关键节点:FILM VFI(补帧)、VHS_VideoCombine(合成视频)。

5. 输入与输出

  • 输入参数

    • 控制视频、分辨率(默认 480x832)、提示词、帧数上限(默认 49 帧)。

  • 输出结果

    • 最终视频(MP4 格式),可选超分和补帧版本。

6. 注意事项

  • 显存需求:建议使用 16GB+ 显存的 GPU(如 RTX 3090)。

  • 模型依赖:需手动安装 ComfyUI-WanVideoWrapperComfyUI-VideoHelperSuite

  • 常见错误

    • 缺少模型文件:确保下载 Wan2.1-Fun-Control-14B_fp8_e4m3fn.safetensors

    • 分辨率不匹配:调整输入视频与控制图的尺寸一致。

常见问题