让您的照片动起来:利用Sonic Diffusion和NTCosyVoice实现AI驱动的视频生成
利用Sonic Diffusion和语音克隆技术,从图像生成惊艳视频。学习如何将静态图像转化为带有合成语音的动态视频。立即开始体验吧!
- 使用场景
- Video
- 适用场景
- Video
- 关键节点
- Animatediff
- 显存
- 低显存(≤8GB)
- 阅读时间
- 8 分钟
工作流概览
利用Sonic Diffusion和语音克隆技术,从图像生成惊艳视频。学习如何将静态图像转化为带有合成语音的动态视频。立即开始体验吧!
内容类型: Workflow
主要用途: Download
所需节点
- Animatediff
配置说明
- 打开工作流模板前,请先安装所需模型。
- 推荐硬件:低显存(≤8GB)。
工作流概述

此工作流是一个基于 Sonic Diffusion 模型的图像转视频(Image-to-Video, I2V)生成流程,结合声音克隆功能,旨在从一张输入图像和音频生成具有动态效果的视频,同时生成与输入音频风格一致的合成语音。工作流分为两个主要部分:声音克隆(使用 NTCosyVoice 生成 TTS 语音)和数字人生成(使用 Sonic Diffusion 将图像转为视频)。最终输出是一个 256x256 分辨率、25 帧的 MP4 视频,适用于数字人动画或短视频创作。
核心模型
Sonic Diffusion (svd_xt_1_1.safetensors)
功能:一种图像转视频模型,基于 Stable Video Diffusion (SVD),将静态图像扩展为动态视频帧。
来源:从 Sonic Diffusion 官方或 Hugging Face 下载,放置在 ComfyUI/models/checkpoints/ 文件夹中。
Sonic UNet (unet.pth)
功能:Sonic Diffusion 的核心 UNet 网络,用于视频帧生成。
来源:从 Sonic 官方仓库下载,放置在指定路径(通常为 ComfyUI/models/unet/)。
NTCosyVoice (内置模型)
功能:文本转语音(TTS)模型,支持声音克隆和情感控制,生成与输入音频风格相似的合成语音。
来源:通过 ComfyUI_NTCosyVoice 插件自动加载,默认内置模型无需手动下载。
组件说明
ImageOnlyCheckpointLoader
用途:加载 Sonic Diffusion 检查点文件。
功能:输出模型、CLIP Vision 和 VAE,用于后续视频生成。
安装:ComfyUI 自带节点。
依赖:需要 svd_xt_1_1.safetensors 文件。
SONICTLoader
用途:加载 Sonic UNet 模型并设置精度。
功能:输出 Sonic 专用模型(MODEL_SONIC)和数据类型(fp16),优化生成效率。
安装:需安装 ComfyUI_Sonic 插件,通过 ComfyUI Manager 搜索“Sonic”或从 GitHub(https://github.com/smthemex/ComfyUI_Sonic)下载。
依赖:需要 unet.pth 文件。
SONIC_PreData
用途:准备 Sonic Diffusion 的预处理数据。
功能:整合图像、音频、CLIP Vision 和 VAE 数据,设置帧数(25)、条件强度(0.5)。
安装:需安装 ComfyUI_Sonic 插件。
SONICSampler
用途:执行 Sonic Diffusion 采样生成视频帧。
功能:从预处理数据生成图像序列和帧率(25 FPS)。
安装:需安装 ComfyUI_Sonic 插件。
LoadImage
用途:加载输入图像。
功能:提供静态图像作为视频生成的基础。
安装:ComfyUI 自带节点。
LoadAudio
用途:加载输入音频文件。
功能:提供音频输入,支持声音克隆和视频同步。
安装:ComfyUI 自带节点。
NTCosyVoiceInstruct2Sampler
用途:生成合成语音(TTS)。
功能:根据输入音频和文本提示生成带有情感(如“happy”)的语音。
安装:需安装 ComfyUI_NTCosyVoice 插件,通过 ComfyUI Manager 搜索“NTCosyVoice”或从 GitHub(https://github.com/muxueChen/ComfyUI_NTCosyVoice)下载。
PreviewAudio
用途:预览生成的 TTS 语音。
功能:用于调试或验证语音效果。
安装:ComfyUI 自带节点。
VHS_VideoCombine
用途:将图像序列合成为视频。
功能:输出 MP4 视频,支持音频同步(未使用)和帧率调整(25 FPS)。
安装:需安装 ComfyUI-VideoHelperSuite,通过 ComfyUI Manager 搜索“VideoHelperSuite”或从 GitHub(https://github.com/kosinkadink/ComfyUI-VideoHelperSuite)下载。
工作流结构
声音克隆组(Group 1: 声音克隆)
节点:LoadAudio (18) → NTCosyVoiceInstruct2Sampler → PreviewAudio
作用:加载参考音频(hy.WAV),根据文本提示(“你好,我是马斯克,我爱你们”)生成带有“happy”情感的合成语音,并预览结果。
输入参数:音频文件、文本提示、情感(happy)。
输出结果:合成语音(AUDIO)。
数字人生成组(Group 2: 数字人生成)
节点:ImageOnlyCheckpointLoader → SONICTLoader → LoadImage → LoadAudio (11) → SONIC_PreData → SONICSampler → VHS_VideoCombine
作用:加载模型和输入数据(图像和音频),生成视频帧并合成为 MP4 文件。
输入参数:图像(ComfyUI_temp_kbxmh_00003_.png)、音频(杨幂.WAV)、帧数(25)、分辨率(256x256)。
输出结果:25 帧的 256x256 MP4 视频。
输入与输出
预期输入参数:
图像:ComfyUI_temp_kbxmh_00003_.png(256x256)。
音频(数字人):杨幂.WAV(用于条件生成)。
音频(声音克隆):hy.WAV(用于 TTS 参考)。
文本提示(TTS): “你好,我是马斯克,我爱你们”。
情感(TTS): “happy”。
分辨率:256x256。
帧数:25。
帧率:25 FPS。
最终输出:
256x256、25 帧的 MP4 视频(AnimateDiff_00005.mp4),不含音频(未连接 TTS 输出)。
可选:TTS 合成语音(仅预览,未集成到视频)。
注意事项
资源需求:Sonic Diffusion 需要至少 8GB VRAM,若不足可调整帧数或分辨率。
模型文件:确保 svd_xt_1_1.safetensors 和 unet.pth 放置正确,否则会报错。
插件安装:需安装 ComfyUI_Sonic、ComfyUI_NTCosyVoice 和 ComfyUI-VideoHelperSuite,否则部分节点不可用。
音频未集成:TTS 语音未连接到 VHS_VideoCombine,如需合成音视频,需手动添加链接。
性能优化:若生成时间长,可减少帧数(从 25 到 15)或使用 fp16 精度。