解锁专业级唇同步视频:逐步工作流程指南

CN
ComfyUI.org
2025-04-30 09:15:09

解锁专业级唇同步视频:探索结合 WanVideo 与 FantasyTalking 技术的终极工作流程,实现精准音频驱动唇形同步、多模态条件控制及双格式输出。立即学习如何创作惊艳视频!

使用场景
Video
适用场景
Video
显存
中等显存(12–16GB)
阅读时间
3 分钟
更多 Video 工作流

工作流概览

解锁专业级唇同步视频:探索结合 WanVideo 与 FantasyTalking 技术的终极工作流程,实现精准音频驱动唇形同步、多模态条件控制及双格式输出。立即学习如何创作惊艳视频!

内容类型: Workflow

主要用途: Download

配置说明

  • 打开工作流模板前,请先安装所需模型。
  • 推荐硬件:中等显存(12–16GB)。
  • 使用上方下载按钮将工作流 JSON 导入 ComfyUI。

1. 工作流概述

ma3q191vp555lzfn1nd2e89642b035ba691c2f87ff47aacc67a1196e439f148ca3fb923c7187f11077b.gif

这是一个专业级的口型同步视频生成工作流,通过WanVideo模型结合FantasyTalking技术,实现将静态人物图像与音频同步生成对口型动画视频。核心特色包括:

  • 音频驱动的高精度口型匹配(使用wav2vec2语音识别模型)

  • 多模态条件控制(文本+图像+音频)

  • 双视频输出格式(MP4+GIF)

核心模型:

  • Wan2_1-I2V-14B-720P_fp8:14B参数的视频生成主模型

  • fantasytalking_fp16.safetensors:专用口型同步适配器

  • facebook/wav2vec2-base-960h:语音特征提取模型

2. 组件说明

关键节点:

  1. FantasyTalkingWav2VecEmbeds

    • 功能:将音频转换为口型运动参数

    • 参数:81帧长度,23倍音频增强

  2. WanVideoSampler

    • 高级视频采样器,使用UniPC调度

    • 关键参数:30步采样,CFG=5

  3. WanVideoImageToVideoEncode

    • 图像时序编码器

    • 预设分辨率:832x480(16:9标准比例)

  4. VHS_VideoCombine

    • 视频合成节点(需安装VideoHelperSuite)

    • 支持H.264 MP4和GIF双格式输出

特殊依赖:

  • 必须安装ComfyUI-WanVideoWrapper扩展

  • 需要下载约35GB的模型文件(包括WanVAE和T5文本编码器)

3. 工作流结构

处理流程:

  1. 输入准备阶段

    • 加载人物图像(512x768)→ 使用KJNodes调整尺寸

    • 加载音频文件(支持WAV格式)

  2. 特征提取阶段

    • CLIP视觉编码(clip_vision_vit_h模型)

    • T5文本编码(umt5-xxl中文模型)

    • wav2vec2音频特征提取

  3. 视频生成阶段

    • 通过TeaCache技术优化显存使用

    • 使用FP8混合精度加速

  4. 输出阶段

    • 同时生成23fps的MP4视频和循环GIF

4. 输入输出

输入参数:

  • 源图像:ComfyUI_temp_nupri_00001_.png

  • 音频文件:[jok老师]说得好像您带我以来我考好过几次一样.wav

  • 提示词:

    正面:一个女人对着镜头说话  
    负面:色调艳丽,过曝,静态,细节模糊不清...

输出结果:

  • MP4视频:WanVideoWrapper_I2V_FantasyTalking_[timestamp].mp4

  • GIF动画:同前缀的.gif文件

5. 注意事项

  1. 硬件要求

    • 最低显存:12GB(FP16模式)

    • 推荐使用RTX 3090/4090显卡

  2. 常见问题

    • 如出现CUDA out of memory

      在WanVideoTorchCompileSettings中减小block_size(当前128)  
    • 口型不同步时:调整FantasyTalkingWav2VecEmbeds中的audio_cfg_scale参数

  3. 模型路径

    • Wan系列模型需放置在:ComfyUI/models/wanvideo/

    • 音频模型自动下载到:ComfyUI/models/wav2vec2/

常见问题