解锁真实动作迁移:深入解析 Wan2.1-Fun-Control 工作流
探索如何使用 Wan2.1-Fun-Control 模型,将源视频中的动作迁移到目标角色,实现高度真实的角色动画。了解该创新流程所使用的工作机制、核心技术与模型架构。
工作流概览
探索如何使用 Wan2.1-Fun-Control 模型,将源视频中的动作迁移到目标角色,实现高度真实的角色动画。了解该创新流程所使用的工作机制、核心技术与模型架构。
内容类型: Workflow
主要用途: Download
所需模型
- Wan2.1
配置说明
- 打开工作流模板前,请先安装所需模型。
- 推荐硬件:低显存(≤8GB)。
1. 工作流概述

功能:通过Wan2.1-Fun-Control模型实现视频动作重定向,将输入视频中的人物动作迁移到目标角色上(如让静态图片人物“动起来”)。
核心技术:
动作捕捉:使用
DWPreprocessor提取原始视频中的姿态关键点。多模态控制:结合CLIP视觉编码、T5文本编码和深度图(
DepthAnythingPreprocessor)增强动作一致性。动态渲染:通过
WanFunControlToVideo节点实现时序连贯的视频生成。
2. 核心模型
模型名称 | 功能说明 |
|---|---|
Wan2.1-Fun-Control-14B | 基础动作控制模型,支持14B参数和FP8优化( |
umt5-xxl_fp8_e4m3fn_scaled | 文本编码器,解析动作描述提示词(如负面提示词过滤低质量帧)。 |
depth_anything_vitl14 | 深度图预处理器,增强动作与背景的空间一致性。 |
3. 关键组件
3.1 输入处理
VHS_LoadVideo:
加载输入视频(如
5月12日 0.8.mp4),自动提取帧序列。参数:帧率25FPS,支持自定义分辨率(默认512x512)。
LoadImage:
加载目标角色图像(如
00088-3677135724.png),需与视频帧尺寸匹配。
3.2 动作分析与控制
DWPreprocessor:
提取视频中的姿态关键点(基于
yolox_l.onnx和dw-ll_ucoco_384模型)。
DepthAnythingPreprocessor:
生成深度图,辅助动作与背景的透视对齐。
3.3 视频生成
WanFunControlToVideo:
核心参数:输出分辨率832x480,时长81帧(约3.24秒),CFG=1.0。
输入:动作关键点 + CLIP视觉特征 + 文本条件。
KSampler:
采样设置:20步,Euler采样器,固定种子(198)。
3.4 后期优化
SkipLayerGuidanceWanVideo:
跳过特定UNet层(9,10层),强度0.2,平衡细节与流畅性。
WanVideoEnhanceAVideoKJ:
视频增强(强度0.2),减少闪烁和伪影。
4. 工作流结构
阶段 | 关键节点 | 功能说明 |
|---|---|---|
输入准备 | VHS_LoadVideo + LoadImage | 加载视频和目标图像。 |
动作提取 | DWPreprocessor → DepthAnything | 提取姿态关键点和深度图。 |
条件编码 | CLIPTextEncode + CLIPVisionEncode | 生成文本和视觉条件。 |
视频生成 | WanFunControlToVideo → KSampler | 合成动作迁移后的视频帧。 |
输出合成 | VHS_VideoCombine | 渲染最终视频(H.264编码,CRF=15)。 |
5. 输入与输出
输入:
视频文件(MP4格式,建议25FPS)。
目标角色图像(PNG/JPG,透明背景更佳)。
文本提示词(可选,用于控制风格)。
输出:
动作迁移后的视频(默认832x480,25FPS)。
6. 注意事项
硬件需求:
显存建议16GB+(因14B模型较大)。
需启用FP8优化(
fp8_e4m3fn)以减少显存占用。
模型依赖:
需手动下载
Wan2.1-Fun-Control-14B和depth_anything_vitl14.pth。
常见问题:
动作抖动:增加
KSampler步数(20→30)或降低SkipLayerGuidance强度(0.2→0.1)。分辨率报错:确保输入视频与图像的分辨率比例一致(如512x512)。