解锁语音同步虚拟人偶的强大能力:Sonic Digital Human 工作流程全解析

CN
ComfyUI.org
2025-05-12 10:19:13

使用 Sonic Digital Human 工作流程创建语音同步的虚拟人偶!结合 Stable Video Diffusion(SVD)框架与音频输入,生成嘴型同步的面部动画 MP4 视频,实现自然流畅的对话效果。立即开始打造你的数字人形象!

显存
低显存(≤8GB)
阅读时间
3 分钟

工作流概览

使用 Sonic Digital Human 工作流程创建语音同步的虚拟人偶!结合 Stable Video Diffusion(SVD)框架与音频输入,生成嘴型同步的面部动画 MP4 视频,实现自然流畅的对话效果。立即开始打造你的数字人形象!

内容类型: Workflow

主要用途: Download

配置说明

  • 打开工作流模板前,请先安装所需模型。
  • 推荐硬件:低显存(≤8GB)。

1. 工作流概述

makxld96j73ed5w8l5iad820040e7a084159f2f98ce8eb25731e14d23e45f8ee0810d94557cc5bc30a1.gif

这是一个基于Sonic模型图片说话数字人生成工作流,通过结合输入图像(如人像)与音频(如语音),生成唇形同步的虚拟人视频。核心技术采用Stable Video Diffusion (SVD)模型框架,支持输出MP4格式的动态视频。

2. 核心模型

模型/组件

功能

来源

svd_xt_1_1

基础视频扩散模型

需下载至models/checkpoints

Sonic模型(unet.pth)

唇形同步控制

需从夸克/百度网盘下载

CLIP Vision

图像特征提取

内置组件

3. 关键组件

组件名称

用途

安装方式

SONICTLoader

加载Sonic适配器

需安装ComfyUI_Sonic插件

SONIC_PreData

融合音频/图像数据

同上

VHS_VideoCombine

视频合成

安装VideoHelperSuite插件

LoadAudio

加载音频文件

内置节点

4. 工作流结构

  1. 输入组

    • 图像输入:LoadImage加载人像图(如image.png

    • 音频输入:LoadAudio加载语音文件(如4月28日.MP3

  2. 处理组

    • 数据融合SONIC_PreData将图像/音频编码为时序数据

    • 参数配置:图像尺寸768x768,音频权重0.5

  3. 生成组

    • SONICSampler:25步采样,帧率25fps

    • 视频合成:8fps输出,H.264编码(CRF=19)

5. 输入输出

  • 输入要求

    • 图像:建议1139x1151像素PNG

    • 音频:MP3/WAV格式,需与唇形匹配

  • 输出结果

    • 视频文件:ComfyUI/output/AnimateDiff_xxxx-audio.mp4

6. 注意事项

  1. 模型准备

    • 必须下载Sonic模型(网盘链接见工作流内备注)

    • 确保svd_xt_1_1模型放置正确

  2. 性能优化

    • 显存需求 ≥16GB

    • 可降低帧率至8fps减少资源占用

  3. 常见问题

    • 唇形不同步:检查音频采样率是否为44.1kHz

    • 视频卡顿:调整CRF值(18-23)

常见问题