通过基于 Wan 模型的工作流程解锁高级视频深度控制
通过我们的 Wan 模型驱动工作流程解锁 AI 驱动的视频深度控制。了解如何提取深度图、使用文本指导为视频赋予风格等功能。立即深入了解详情!
- 使用场景
- Video
- 适用场景
- Video
- 关键节点
- Controlnet
- 显存
- 中等显存(12–16GB)
- 阅读时间
- 3 分钟
工作流概览
通过我们的 Wan 模型驱动工作流程解锁 AI 驱动的视频深度控制。了解如何提取深度图、使用文本指导为视频赋予风格等功能。立即深入了解详情!
内容类型: Workflow
主要用途: Download
所需模型
- Wan2.1
- Controlnet
- Lora
所需节点
- Controlnet
配置说明
- 打开工作流模板前,请先安装所需模型。
- 推荐硬件:中等显存(12–16GB)。
1. 工作流概述

这是一个基于Wan模型的视频深度控制工作流,专门用于视频到视频(Video-to-Video)的转换任务。工作流通过深度信息控制视频帧的生成过程,实现风格化视频输出。核心功能包括:
视频帧的深度信息提取
基于文本提示词的视频风格转换
双阶段采样生成高质量结果
自动多语言提示词翻译
核心模型:
Wan 2.1 T2V 1.3B:专为视频生成优化的基础模型
DepthAnythingV2:深度图预处理器
Florence-2-base:用于自动生成图像描述
Wan Control LoRA:深度控制适配器
2. 组件说明
关键节点:
VHS_LoadVideo (视频加载)
功能:加载输入视频并提取帧
安装:需安装
comfyui-videohelpersuite扩展参数:帧率16fps,分辨率480x720
AIO_Preprocessor
功能:使用DepthAnythingV2提取深度图
安装:需
comfyui_controlnet_aux扩展输出:512x512标准化深度图
SamplerCustom (双采样器)
功能:分高低方差两阶段采样
参数:第一阶段10步,第二阶段15步
使用Euler采样器
特殊依赖:
wan_2.1_vae.safetensors:需从Wan模型库获取
umt5_xxl_fp8_e4m3fn_scaled:多语言文本编码器
3. 工作流结构
分组逻辑:
视频输入组:
节点:VHS_LoadVideo → ImageResizeKJ
功能:视频帧加载和尺寸标准化
深度处理组:
节点:AIO_Preprocessor → ImageScale
输出:标准化深度图
生成控制组:
包含:UNETLoader + LoRA加载 + TeaCache优化
关键:0.8强度深度控制LoRA
双阶段采样组:
SplitSigmas分高低方差 → 两个SamplerCustom串联
4. 输入与输出
输入参数:
必须:输入视频文件(如"自动写提示词2.mp4")
可选:正面提示词(默认含中文自动翻译)
高级:深度控制强度(0.08)
输出结果:
MP4视频(16fps, H.264编码)
生成帧预览图
自动翻译的提示词文本
5. 注意事项
硬件需求:至少12GB显存
必须安装:VideoHelperSuite + ControlNet-Aux
路径配置:所有Wan模型需放在
wan/子目录常见错误:视频帧率不匹配会导致音频不同步
优化建议:降低CRF值(当前19)可提升画质