解锁专业级唇同步视频:逐步工作流程指南
解锁专业级唇同步视频:探索结合 WanVideo 与 FantasyTalking 技术的终极工作流程,实现精准音频驱动唇形同步、多模态条件控制及双格式输出。立即学习如何创作惊艳视频!
- 使用场景
- Video
- 适用场景
- Video
- 显存
- 中等显存(12–16GB)
- 阅读时间
- 3 分钟
工作流概览
解锁专业级唇同步视频:探索结合 WanVideo 与 FantasyTalking 技术的终极工作流程,实现精准音频驱动唇形同步、多模态条件控制及双格式输出。立即学习如何创作惊艳视频!
内容类型: Workflow
主要用途: Download
配置说明
- 打开工作流模板前,请先安装所需模型。
- 推荐硬件:中等显存(12–16GB)。
- 使用上方下载按钮将工作流 JSON 导入 ComfyUI。
1. 工作流概述

这是一个专业级的口型同步视频生成工作流,通过WanVideo模型结合FantasyTalking技术,实现将静态人物图像与音频同步生成对口型动画视频。核心特色包括:
音频驱动的高精度口型匹配(使用wav2vec2语音识别模型)
多模态条件控制(文本+图像+音频)
双视频输出格式(MP4+GIF)
核心模型:
Wan2_1-I2V-14B-720P_fp8:14B参数的视频生成主模型fantasytalking_fp16.safetensors:专用口型同步适配器facebook/wav2vec2-base-960h:语音特征提取模型
2. 组件说明
关键节点:
FantasyTalkingWav2VecEmbeds
功能:将音频转换为口型运动参数
参数:81帧长度,23倍音频增强
WanVideoSampler
高级视频采样器,使用UniPC调度
关键参数:30步采样,CFG=5
WanVideoImageToVideoEncode
图像时序编码器
预设分辨率:832x480(16:9标准比例)
VHS_VideoCombine
视频合成节点(需安装VideoHelperSuite)
支持H.264 MP4和GIF双格式输出
特殊依赖:
必须安装
ComfyUI-WanVideoWrapper扩展需要下载约35GB的模型文件(包括WanVAE和T5文本编码器)
3. 工作流结构
处理流程:
输入准备阶段
加载人物图像(512x768)→ 使用KJNodes调整尺寸
加载音频文件(支持WAV格式)
特征提取阶段
CLIP视觉编码(clip_vision_vit_h模型)
T5文本编码(umt5-xxl中文模型)
wav2vec2音频特征提取
视频生成阶段
通过TeaCache技术优化显存使用
使用FP8混合精度加速
输出阶段
同时生成23fps的MP4视频和循环GIF
4. 输入输出
输入参数:
源图像:
ComfyUI_temp_nupri_00001_.png音频文件:
[jok老师]说得好像您带我以来我考好过几次一样.wav提示词:
正面:一个女人对着镜头说话 负面:色调艳丽,过曝,静态,细节模糊不清...
输出结果:
MP4视频:
WanVideoWrapper_I2V_FantasyTalking_[timestamp].mp4GIF动画:同前缀的
.gif文件
5. 注意事项
硬件要求
最低显存:12GB(FP16模式)
推荐使用RTX 3090/4090显卡
常见问题
如出现
CUDA out of memory:在WanVideoTorchCompileSettings中减小block_size(当前128)口型不同步时:调整
FantasyTalkingWav2VecEmbeds中的audio_cfg_scale参数
模型路径
Wan系列模型需放置在:
ComfyUI/models/wanvideo/音频模型自动下载到:
ComfyUI/models/wav2vec2/