探索对口型同步的卡通头像视频工作流程

CN
ComfyUI.org
2025-04-02 10:33:01

轻松生成对口型同步的卡通头像视频!学习如何使用 SVD XT 1.1、SONIC UNet 和 VHS Video 插件在几分钟内创建 10 秒视频。探索工作流程和关键节点,以生成高质量效果。立即开始吧!

使用场景
Video
适用场景
Video
显存
低显存(≤8GB)
阅读时间
3 分钟
更多 Video 工作流

工作流概览

轻松生成对口型同步的卡通头像视频!学习如何使用 SVD XT 1.1、SONIC UNet 和 VHS Video 插件在几分钟内创建 10 秒视频。探索工作流程和关键节点,以生成高质量效果。立即开始吧!

内容类型: Workflow

主要用途: Download

配置说明

  • 打开工作流模板前,请先安装所需模型。
  • 推荐硬件:低显存(≤8GB)。

1. 工作流概述

m8zsh97nggs2v1okatf2090560740d3541f2208f82b2f09965c34ae4604b1fe4946bd6f83153ef720d.gif

该工作流用于生成带口型同步的卡通人物视频(如Sonic数字人),支持任意分辨率输入。核心功能是通过音频驱动图像中人物的嘴部动作,生成10秒左右的视频(4090显卡约需8分钟渲染)。


2. 核心模型

模型/插件

功能说明

来源/安装方式

SVD XT 1.1

基础视频生成模型

需下载svd_xt_1_1模型文件

SONIC 定制模型

口型同步专用UNet

需加载unet.pth文件

VHS Video

视频合成插件

通过ComfyUI Manager安装


3. 关键组件

组件名称

功能说明

安装方式

依赖项

ImageOnlyCheckpointLoader

加载基础模型

内置节点

SVD XT 1.1模型文件

SONICTLoader

加载口型同步专用UNet

需手动安装SONIC插件

unet.pth文件

SONIC_PreData

预处理音频和图像数据

同SONIC插件

CLIP视觉编码器

VHS_VideoCombine

合成视频与音频

安装ComfyUI-VideoHelperSuite

FFmpeg环境


4. 工作流结构

  • Group 1: 数据加载

    • 输入

      • 图像(如45b437ee...png

      • 音频(如10s-aijuxi.wav

    • 输出:预处理后的音频图像数据

    • 关键节点LoadImage, LoadAudio, SONIC_PreData

  • Group 2: 口型同步生成

    • 输入:预处理数据 + 模型

    • 输出:带口型的帧序列

    • 关键节点SONICSampler(控制生成帧率和种子值)

  • Group 3: 视频合成

    • 输入:帧序列 + 原始音频

    • 输出:MP4视频(H.264编码)

    • 关键节点VHS_VideoCombine


5. 输入与输出

  • 输入参数

    • 图像:1080x1920 PNG(需包含清晰嘴部)

    • 音频:10秒WAV文件

    • 帧率:默认25 FPS(可调)

    • 种子值:支持随机或固定(如837794266

  • 输出结果

    • MP4视频(路径如output/Sonic/aijuxi_xxxx.mp4


6. 注意事项

  • ⚠️ 硬件要求:需NVIDIA显卡(建议4090,显存≥16GB)

  • ⚠️ 模型准备

    • svd_xt_1_1模型放入models/checkpoints

    • unet.pth需放在SONIC插件指定路径

  • 优化建议

    • 缩短音频时长可减少生成时间

    • 降低SONICSamplerweight_dtypefp16加速推理

常见问题