让您的照片动起来:利用Sonic Diffusion和NTCosyVoice实现AI驱动的视频生成

CN
ComfyUI.org
2025-03-11 08:14:19

利用Sonic Diffusion和语音克隆技术,从图像生成惊艳视频。学习如何将静态图像转化为带有合成语音的动态视频。立即开始体验吧!

使用场景
Video
适用场景
Video
关键节点
Animatediff
显存
低显存(≤8GB)
阅读时间
8 分钟
更多 Video 工作流

工作流概览

利用Sonic Diffusion和语音克隆技术,从图像生成惊艳视频。学习如何将静态图像转化为带有合成语音的动态视频。立即开始体验吧!

内容类型: Workflow

主要用途: Download

所需节点

  • Animatediff

配置说明

  • 打开工作流模板前,请先安装所需模型。
  • 推荐硬件:低显存(≤8GB)。

工作流概述

m847ub6210uw3xyedy8h24875926c99018a3473a0764c9c2681f417d213a7a9a36e6fbc5a201d4d97a33.gif

此工作流是一个基于 Sonic Diffusion 模型的图像转视频(Image-to-Video, I2V)生成流程,结合声音克隆功能,旨在从一张输入图像和音频生成具有动态效果的视频,同时生成与输入音频风格一致的合成语音。工作流分为两个主要部分:声音克隆(使用 NTCosyVoice 生成 TTS 语音)和数字人生成(使用 Sonic Diffusion 将图像转为视频)。最终输出是一个 256x256 分辨率、25 帧的 MP4 视频,适用于数字人动画或短视频创作。

核心模型

  1. Sonic Diffusion (svd_xt_1_1.safetensors)

    • 功能:一种图像转视频模型,基于 Stable Video Diffusion (SVD),将静态图像扩展为动态视频帧。

    • 来源:从 Sonic Diffusion 官方或 Hugging Face 下载,放置在 ComfyUI/models/checkpoints/ 文件夹中。

  2. Sonic UNet (unet.pth)

    • 功能:Sonic Diffusion 的核心 UNet 网络,用于视频帧生成。

    • 来源:从 Sonic 官方仓库下载,放置在指定路径(通常为 ComfyUI/models/unet/)。

  3. NTCosyVoice (内置模型)

    • 功能:文本转语音(TTS)模型,支持声音克隆和情感控制,生成与输入音频风格相似的合成语音。

    • 来源:通过 ComfyUI_NTCosyVoice 插件自动加载,默认内置模型无需手动下载。

组件说明

  1. ImageOnlyCheckpointLoader

    • 用途:加载 Sonic Diffusion 检查点文件。

    • 功能:输出模型、CLIP Vision 和 VAE,用于后续视频生成。

    • 安装:ComfyUI 自带节点。

    • 依赖:需要 svd_xt_1_1.safetensors 文件。

  2. SONICTLoader

    • 用途:加载 Sonic UNet 模型并设置精度。

    • 功能:输出 Sonic 专用模型(MODEL_SONIC)和数据类型(fp16),优化生成效率。

    • 安装:需安装 ComfyUI_Sonic 插件,通过 ComfyUI Manager 搜索“Sonic”或从 GitHub(https://github.com/smthemex/ComfyUI_Sonic)下载。

    • 依赖:需要 unet.pth 文件。

  3. SONIC_PreData

    • 用途:准备 Sonic Diffusion 的预处理数据。

    • 功能:整合图像、音频、CLIP Vision 和 VAE 数据,设置帧数(25)、条件强度(0.5)。

    • 安装:需安装 ComfyUI_Sonic 插件。

  4. SONICSampler

    • 用途:执行 Sonic Diffusion 采样生成视频帧。

    • 功能:从预处理数据生成图像序列和帧率(25 FPS)。

    • 安装:需安装 ComfyUI_Sonic 插件。

  5. LoadImage

    • 用途:加载输入图像。

    • 功能:提供静态图像作为视频生成的基础。

    • 安装:ComfyUI 自带节点。

  6. LoadAudio

    • 用途:加载输入音频文件。

    • 功能:提供音频输入,支持声音克隆和视频同步。

    • 安装:ComfyUI 自带节点。

  7. NTCosyVoiceInstruct2Sampler

    • 用途:生成合成语音(TTS)。

    • 功能:根据输入音频和文本提示生成带有情感(如“happy”)的语音。

    • 安装:需安装 ComfyUI_NTCosyVoice 插件,通过 ComfyUI Manager 搜索“NTCosyVoice”或从 GitHub(https://github.com/muxueChen/ComfyUI_NTCosyVoice)下载。

  8. PreviewAudio

    • 用途:预览生成的 TTS 语音。

    • 功能:用于调试或验证语音效果。

    • 安装:ComfyUI 自带节点。

  9. VHS_VideoCombine

    • 用途:将图像序列合成为视频。

    • 功能:输出 MP4 视频,支持音频同步(未使用)和帧率调整(25 FPS)。

    • 安装:需安装 ComfyUI-VideoHelperSuite,通过 ComfyUI Manager 搜索“VideoHelperSuite”或从 GitHub(https://github.com/kosinkadink/ComfyUI-VideoHelperSuite)下载。

工作流结构

  1. 声音克隆组(Group 1: 声音克隆)

    • 节点:LoadAudio (18) → NTCosyVoiceInstruct2Sampler → PreviewAudio

    • 作用:加载参考音频(hy.WAV),根据文本提示(“你好,我是马斯克,我爱你们”)生成带有“happy”情感的合成语音,并预览结果。

    • 输入参数:音频文件、文本提示、情感(happy)。

    • 输出结果:合成语音(AUDIO)。

  2. 数字人生成组(Group 2: 数字人生成)

    • 节点:ImageOnlyCheckpointLoader → SONICTLoader → LoadImage → LoadAudio (11) → SONIC_PreData → SONICSampler → VHS_VideoCombine

    • 作用:加载模型和输入数据(图像和音频),生成视频帧并合成为 MP4 文件。

    • 输入参数:图像(ComfyUI_temp_kbxmh_00003_.png)、音频(杨幂.WAV)、帧数(25)、分辨率(256x256)。

    • 输出结果:25 帧的 256x256 MP4 视频。

输入与输出

  • 预期输入参数

    • 图像:ComfyUI_temp_kbxmh_00003_.png(256x256)。

    • 音频(数字人):杨幂.WAV(用于条件生成)。

    • 音频(声音克隆):hy.WAV(用于 TTS 参考)。

    • 文本提示(TTS): “你好,我是马斯克,我爱你们”。

    • 情感(TTS): “happy”。

    • 分辨率:256x256。

    • 帧数:25。

    • 帧率:25 FPS。

  • 最终输出

    • 256x256、25 帧的 MP4 视频(AnimateDiff_00005.mp4),不含音频(未连接 TTS 输出)。

    • 可选:TTS 合成语音(仅预览,未集成到视频)。

注意事项

  1. 资源需求:Sonic Diffusion 需要至少 8GB VRAM,若不足可调整帧数或分辨率。

  2. 模型文件:确保 svd_xt_1_1.safetensors 和 unet.pth 放置正确,否则会报错。

  3. 插件安装:需安装 ComfyUI_Sonic、ComfyUI_NTCosyVoice 和 ComfyUI-VideoHelperSuite,否则部分节点不可用。

  4. 音频未集成:TTS 语音未连接到 VHS_VideoCombine,如需合成音视频,需手动添加链接。

  5. 性能优化:若生成时间长,可减少帧数(从 25 到 15)或使用 fp16 精度。

常见问题