解锁语音同步虚拟人偶的强大能力:Sonic Digital Human 工作流程全解析
使用 Sonic Digital Human 工作流程创建语音同步的虚拟人偶!结合 Stable Video Diffusion(SVD)框架与音频输入,生成嘴型同步的面部动画 MP4 视频,实现自然流畅的对话效果。立即开始打造你的数字人形象!
- 显存
- 低显存(≤8GB)
- 阅读时间
- 3 分钟
工作流概览
使用 Sonic Digital Human 工作流程创建语音同步的虚拟人偶!结合 Stable Video Diffusion(SVD)框架与音频输入,生成嘴型同步的面部动画 MP4 视频,实现自然流畅的对话效果。立即开始打造你的数字人形象!
内容类型: Workflow
主要用途: Download
配置说明
- 打开工作流模板前,请先安装所需模型。
- 推荐硬件:低显存(≤8GB)。
1. 工作流概述

这是一个基于Sonic模型的图片说话数字人生成工作流,通过结合输入图像(如人像)与音频(如语音),生成唇形同步的虚拟人视频。核心技术采用Stable Video Diffusion (SVD)模型框架,支持输出MP4格式的动态视频。
2. 核心模型
模型/组件 | 功能 | 来源 |
|---|---|---|
svd_xt_1_1 | 基础视频扩散模型 | 需下载至 |
Sonic模型(unet.pth) | 唇形同步控制 | 需从夸克/百度网盘下载 |
CLIP Vision | 图像特征提取 | 内置组件 |
3. 关键组件
组件名称 | 用途 | 安装方式 |
|---|---|---|
SONICTLoader | 加载Sonic适配器 | 需安装 |
SONIC_PreData | 融合音频/图像数据 | 同上 |
VHS_VideoCombine | 视频合成 | 安装 |
LoadAudio | 加载音频文件 | 内置节点 |
4. 工作流结构
输入组
图像输入:
LoadImage加载人像图(如image.png)音频输入:
LoadAudio加载语音文件(如4月28日.MP3)
处理组
数据融合:
SONIC_PreData将图像/音频编码为时序数据参数配置:图像尺寸768x768,音频权重0.5
生成组
SONICSampler:25步采样,帧率25fps视频合成:8fps输出,H.264编码(CRF=19)
5. 输入输出
输入要求:
图像:建议1139x1151像素PNG
音频:MP3/WAV格式,需与唇形匹配
输出结果:
视频文件:
ComfyUI/output/AnimateDiff_xxxx-audio.mp4
6. 注意事项
模型准备:
必须下载Sonic模型(网盘链接见工作流内备注)
确保
svd_xt_1_1模型放置正确
性能优化:
显存需求 ≥16GB
可降低帧率至8fps减少资源占用
常见问题:
唇形不同步:检查音频采样率是否为44.1kHz
视频卡顿:调整
CRF值(18-23)