探索对口型同步的卡通头像视频工作流程
轻松生成对口型同步的卡通头像视频!学习如何使用 SVD XT 1.1、SONIC UNet 和 VHS Video 插件在几分钟内创建 10 秒视频。探索工作流程和关键节点,以生成高质量效果。立即开始吧!
- 使用场景
- Video
- 适用场景
- Video
- 显存
- 低显存(≤8GB)
- 阅读时间
- 3 分钟
工作流概览
轻松生成对口型同步的卡通头像视频!学习如何使用 SVD XT 1.1、SONIC UNet 和 VHS Video 插件在几分钟内创建 10 秒视频。探索工作流程和关键节点,以生成高质量效果。立即开始吧!
内容类型: Workflow
主要用途: Download
配置说明
- 打开工作流模板前,请先安装所需模型。
- 推荐硬件:低显存(≤8GB)。
1. 工作流概述

该工作流用于生成带口型同步的卡通人物视频(如Sonic数字人),支持任意分辨率输入。核心功能是通过音频驱动图像中人物的嘴部动作,生成10秒左右的视频(4090显卡约需8分钟渲染)。
2. 核心模型
模型/插件 | 功能说明 | 来源/安装方式 |
|---|---|---|
SVD XT 1.1 | 基础视频生成模型 | 需下载 |
SONIC 定制模型 | 口型同步专用UNet | 需加载 |
VHS Video | 视频合成插件 | 通过ComfyUI Manager安装 |
3. 关键组件
组件名称 | 功能说明 | 安装方式 | 依赖项 |
|---|---|---|---|
| 加载基础模型 | 内置节点 | SVD XT 1.1模型文件 |
| 加载口型同步专用UNet | 需手动安装SONIC插件 |
|
| 预处理音频和图像数据 | 同SONIC插件 | CLIP视觉编码器 |
| 合成视频与音频 | 安装 | FFmpeg环境 |
4. 工作流结构
Group 1: 数据加载
输入:
图像(如
45b437ee...png)音频(如
10s-aijuxi.wav)
输出:预处理后的音频图像数据
关键节点:
LoadImage,LoadAudio,SONIC_PreData
Group 2: 口型同步生成
输入:预处理数据 + 模型
输出:带口型的帧序列
关键节点:
SONICSampler(控制生成帧率和种子值)
Group 3: 视频合成
输入:帧序列 + 原始音频
输出:MP4视频(H.264编码)
关键节点:
VHS_VideoCombine
5. 输入与输出
输入参数:
图像:1080x1920 PNG(需包含清晰嘴部)
音频:10秒WAV文件
帧率:默认25 FPS(可调)
种子值:支持随机或固定(如
837794266)
输出结果:
MP4视频(路径如
output/Sonic/aijuxi_xxxx.mp4)
6. 注意事项
⚠️ 硬件要求:需NVIDIA显卡(建议4090,显存≥16GB)
⚠️ 模型准备:
将
svd_xt_1_1模型放入models/checkpointsunet.pth需放在SONIC插件指定路径
✅ 优化建议:
缩短音频时长可减少生成时间
降低
SONICSampler的weight_dtype为fp16加速推理