How much VRAM is recommended?

此工作流是一个基于 Sonic Diffusion 模型的图像转视频（Image-to-Video, I2V）生成流程，结合声音克隆功能，旨在从一张输入图像和音频生成具有动态效果的视频，同时生成与输入音频风格一致的合成语音。工作流分为两个主要部分：声音克隆（使用 NTCosyVoice 生成 TTS 语音）和数字人生成（使用 Sonic Diffusion 将图像转为视频）。最终输出是一个 256x256 分辨率、25 帧的 MP4 视频，适用于数字人动画或短视频创作。

核心模型

Sonic Diffusion (svd_xt_1_1.safetensors)
- 功能：一种图像转视频模型，基于 Stable Video Diffusion (SVD)，将静态图像扩展为动态视频帧。
- 来源：从 Sonic Diffusion 官方或 Hugging Face 下载，放置在 ComfyUI/models/checkpoints/ 文件夹中。
Sonic UNet (unet.pth)
- 功能：Sonic Diffusion 的核心 UNet 网络，用于视频帧生成。
- 来源：从 Sonic 官方仓库下载，放置在指定路径（通常为 ComfyUI/models/unet/）。
NTCosyVoice (内置模型)
- 功能：文本转语音（TTS）模型，支持声音克隆和情感控制，生成与输入音频风格相似的合成语音。
- 来源：通过 ComfyUI_NTCosyVoice 插件自动加载，默认内置模型无需手动下载。

组件说明

ImageOnlyCheckpointLoader
- 用途：加载 Sonic Diffusion 检查点文件。
- 功能：输出模型、CLIP Vision 和 VAE，用于后续视频生成。
- 安装：ComfyUI 自带节点。
- 依赖：需要 svd_xt_1_1.safetensors 文件。
SONICTLoader
- 用途：加载 Sonic UNet 模型并设置精度。
- 功能：输出 Sonic 专用模型（MODEL_SONIC）和数据类型（fp16），优化生成效率。
- 安装：需安装 ComfyUI_Sonic 插件，通过 ComfyUI Manager 搜索“Sonic”或从 GitHub（https://github.com/smthemex/ComfyUI_Sonic）下载。
- 依赖：需要 unet.pth 文件。
SONIC_PreData
- 用途：准备 Sonic Diffusion 的预处理数据。
- 功能：整合图像、音频、CLIP Vision 和 VAE 数据，设置帧数（25）、条件强度（0.5）。
- 安装：需安装 ComfyUI_Sonic 插件。
SONICSampler
- 用途：执行 Sonic Diffusion 采样生成视频帧。
- 功能：从预处理数据生成图像序列和帧率（25 FPS）。
- 安装：需安装 ComfyUI_Sonic 插件。
LoadImage
- 用途：加载输入图像。
- 功能：提供静态图像作为视频生成的基础。
- 安装：ComfyUI 自带节点。
LoadAudio
- 用途：加载输入音频文件。
- 功能：提供音频输入，支持声音克隆和视频同步。
- 安装：ComfyUI 自带节点。
NTCosyVoiceInstruct2Sampler
- 用途：生成合成语音（TTS）。
- 功能：根据输入音频和文本提示生成带有情感（如“happy”）的语音。
- 安装：需安装 ComfyUI_NTCosyVoice 插件，通过 ComfyUI Manager 搜索“NTCosyVoice”或从 GitHub（https://github.com/muxueChen/ComfyUI_NTCosyVoice）下载。
PreviewAudio
- 用途：预览生成的 TTS 语音。
- 功能：用于调试或验证语音效果。
- 安装：ComfyUI 自带节点。
VHS_VideoCombine
- 用途：将图像序列合成为视频。
- 功能：输出 MP4 视频，支持音频同步（未使用）和帧率调整（25 FPS）。
- 安装：需安装 ComfyUI-VideoHelperSuite，通过 ComfyUI Manager 搜索“VideoHelperSuite”或从 GitHub（https://github.com/kosinkadink/ComfyUI-VideoHelperSuite）下载。

工作流结构

声音克隆组（Group 1: 声音克隆）
- 节点：LoadAudio (18) → NTCosyVoiceInstruct2Sampler → PreviewAudio
- 作用：加载参考音频（hy.WAV），根据文本提示（“你好，我是马斯克，我爱你们”）生成带有“happy”情感的合成语音，并预览结果。
- 输入参数：音频文件、文本提示、情感（happy）。
- 输出结果：合成语音（AUDIO）。
数字人生成组（Group 2: 数字人生成）
- 节点：ImageOnlyCheckpointLoader → SONICTLoader → LoadImage → LoadAudio (11) → SONIC_PreData → SONICSampler → VHS_VideoCombine
- 作用：加载模型和输入数据（图像和音频），生成视频帧并合成为 MP4 文件。
- 输入参数：图像（ComfyUI_temp_kbxmh_00003_.png）、音频（杨幂.WAV）、帧数（25）、分辨率（256x256）。
- 输出结果：25 帧的 256x256 MP4 视频。

输入与输出

预期输入参数：
- 图像：ComfyUI_temp_kbxmh_00003_.png（256x256）。
- 音频（数字人）：杨幂.WAV（用于条件生成）。
- 音频（声音克隆）：hy.WAV（用于 TTS 参考）。
- 文本提示（TTS）： “你好，我是马斯克，我爱你们”。
- 情感（TTS）： “happy”。
- 分辨率：256x256。
- 帧数：25。
- 帧率：25 FPS。
最终输出：
- 256x256、25 帧的 MP4 视频（AnimateDiff_00005.mp4），不含音频（未连接 TTS 输出）。
- 可选：TTS 合成语音（仅预览，未集成到视频）。

注意事项

资源需求：Sonic Diffusion 需要至少 8GB VRAM，若不足可调整帧数或分辨率。
模型文件：确保 svd_xt_1_1.safetensors 和 unet.pth 放置正确，否则会报错。
插件安装：需安装 ComfyUI_Sonic、ComfyUI_NTCosyVoice 和 ComfyUI-VideoHelperSuite，否则部分节点不可用。
音频未集成：TTS 语音未连接到 VHS_VideoCombine，如需合成音视频，需手动添加链接。
性能优化：若生成时间长，可减少帧数（从 25 到 15）或使用 fp16 精度。

常见问题

SUPIR-8K壁纸级放大逐步指南

探索水彩风格图片创作过程

摘要

利用Sonic Diffusion和语音克隆技术，从图像生成惊艳视频。学习如何将静态图像转化为带有合成语音的动态视频。立即开始体验吧！

章节

workflow:

CustomNodes:

SONICSampler ImageOnlyCheckpoi...

workflow

让您的照片动起来：利用Sonic Diffusion和NTCosyVoice实现AI驱动的视频生成

工作流概览

所需节点

配置说明

工作流概述

核心模型

组件说明

工作流结构

输入与输出

注意事项

常见问题

How much VRAM is recommended?

Can this workflow be used commercially?

Which ComfyUI nodes are involved?

相关工作流

按使用场景

按节点

摘要

章节