从静态姿势到动态视频播放:掌握通义万相 Fun-ControlNet 的视频生成技术
通义万相 WAN2.1-Fun ControlNet 视频生成:通过姿势/深度控制与风格控制,创建动态视频。了解此工作流程如何生成视频、控制内容并提升分辨率。
- 使用场景
- Video
- 适用场景
- Video
- 显存
- 低显存(≤8GB)
- 阅读时间
- 4 分钟
工作流概览
通义万相 WAN2.1-Fun ControlNet 视频生成:通过姿势/深度控制与风格控制,创建动态视频。了解此工作流程如何生成视频、控制内容并提升分辨率。
内容类型: Workflow
主要用途: Download
所需模型
- Wan2.1
- Controlnet
所需节点
- Controlnet
- Upscaler
配置说明
- 打开工作流模板前,请先安装所需模型。
- 推荐硬件:低显存(≤8GB)。
1. 工作流概述

该工作流名为 “通义万象-WAN2.1-Fun控制网视频生成【姿势/深度图控制】”,主要用于:
视频生成:基于输入的控制视频(如姿势、深度图)生成新的动态视频。
风格控制:通过 Fun-ControlNet 实现视频内容的精确控制(如人物动作、场景深度)。
后处理:包含视频超分辨率放大、帧插值(补帧)和最终合成。
2. 核心模型
WAN2.1-Fun-ControlNet:核心视频生成模型,支持姿势、深度图等多模态控制。
Meta-Llama-3.1-8B:用于反推输入图像的提示词(Captioning)。
FILM VFI:帧插值模型,提升视频流畅度。
4x_foolhardy_Remacri:超分辨率模型,用于视频放大。
3. 关键组件(Nodes)
视频生成部分
WanVideoModelLoader:加载 WAN2.1-Fun-ControlNet 模型。
WanVideoSampler:执行视频生成采样,支持参数调节(如步数、CFG值)。
WanVideoDecode:将潜在空间(Latent)解码为图像帧。
控制信号处理
AIO_Preprocessor:预处理输入的控制图(如姿势/深度图)。
WanVideoControlEmbeds:生成控制信号的嵌入表示。
后处理部分
FILM VFI:帧插值补帧。
ImageUpscaleWithModel:使用超分模型放大视频分辨率。
VHS_VideoCombine:合成最终视频(支持音频合并)。
辅助工具
Joy_caption_two:基于 Meta-Llama-3.1 反推图像提示词。
easy cleanGpuUsed:清理显存,避免溢出。
4. 工作流结构(Group 分组)
输入控制视频组
输入:上传视频或图像(如姿势图)。
关键节点:
VHS_LoadVideo、ImageResizeKJ(调整分辨率)。
Fun-Control 控制组
输入:控制信号(如深度图)、提示词、模型参数。
关键节点:
WanVideoSampler、WanVideoControlEmbeds。
参考图提示词反推组
输入:参考图像。
关键节点:
Joy_caption_two(生成描述文本)。
视频后处理组
输入:生成的原始视频帧。
关键节点:
FILM VFI(补帧)、VHS_VideoCombine(合成视频)。
5. 输入与输出
输入参数:
控制视频、分辨率(默认 480x832)、提示词、帧数上限(默认 49 帧)。
输出结果:
最终视频(MP4 格式),可选超分和补帧版本。
6. 注意事项
显存需求:建议使用 16GB+ 显存的 GPU(如 RTX 3090)。
模型依赖:需手动安装
ComfyUI-WanVideoWrapper和ComfyUI-VideoHelperSuite。常见错误:
缺少模型文件:确保下载
Wan2.1-Fun-Control-14B_fp8_e4m3fn.safetensors。分辨率不匹配:调整输入视频与控制图的尺寸一致。