利用Index-TTS工作流解锁文本到语音的强大功能

CN
ComfyUI.org
2025-05-13 12:43:06

通过Index-TTS解锁自然语音转换:克隆声音、增强音频等!

阅读时间
4 分钟

工作流概览

通过Index-TTS解锁自然语音转换:克隆声音、增强音频等!

内容类型: Workflow

主要用途: Download

配置说明

  • 打开工作流模板前,请先安装所需模型。
  • 使用上方下载按钮将工作流 JSON 导入 ComfyUI。

1. 工作流概述

mami66t7jim4blill7jfd6caad3dbf53eed82e83256e9fbf73698d72959fcab2ecb34eb913c3701b5b3.png

该工作流利用 Index-TTS 模型将文本转换为自然语音,支持 音色克隆音频增强,适用于有声书、配音等场景。核心功能包括:

  • 文本转语音:输入小说、对话等长文本,生成流畅语音。

  • 音色模仿:基于参考音频(如“蔡徐坤.wav”)克隆说话人音色。

  • 音频降噪:优化输出音质,减少背景噪声。

核心模型

  • Index-TTS:主模型,负责文本生成语音(需安装插件ComfyUI-Index-TTS)。

  • 音频处理工具:包括降噪(AudioCleanupNode)、音色加载(TimbreAudioLoader)等。


2. 关键组件与安装

组件

功能

安装方式

IndexTTSNode

核心文本转语音节点,支持长文本输入和音色克隆。

安装插件ComfyUI-Index-TTS(GitHub仓库:chenpipi0807/ComfyUI-Index-TTS)。

TimbreAudioLoader

加载音色参考音频(如“抖音-读小说.wav”),用于克隆说话风格。

同上,需将音频文件放入ComfyUI/input文件夹。

AudioCleanupNode

降噪和音频增强,调整参数如降噪强度(0.7)、频率范围(100-8000Hz)。

同上。

LoadAudio

加载参考音频文件(如“蔡徐坤.wav”)。

ComfyUI内置节点。

特殊依赖

  • Index-TTS模型需通过插件安装,首次使用会自动下载所需模型文件(约2-3GB)。


3. 工作流结构

Group 1: 音频输入与音色克隆

  • 输入

    • 参考音频(如蔡徐坤.wav)通过LoadAudio加载。

    • 目标音色模板(如抖音-读小说.wav)通过TimbreAudioLoader加载。

  • 处理

    1. IndexTTSNode接收文本(如小说章节)和参考音频,生成语音。

    2. 参数配置:语速(1.0)、情感强度(0.8)、种子值(1155511506)等。

Group 2: 音频后处理

  • 输入:原始生成的语音。

  • 处理

    1. AudioCleanupNode降噪(强度0.7)并增强高频细节。

    2. SaveAudio保存最终音频至audio/ComfyUI文件夹。

Group 3: 预览与输出

  • 预览:通过PreviewAudio实时试听结果。

  • 输出:保存为WAV文件(如ComfyUI_20240513_142301.wav)。


4. 输入与输出

输入参数

  • 文本:支持长文本(示例中为4章小说内容)。

  • 参考音频:需提供清晰的人声样本(建议10秒以上)。

  • 音色模板(可选):如“抖音-读小说.wav”风格模板。

输出结果

  • 生成的语音文件(WAV格式),默认保存在ComfyUI/audio文件夹。


5. 注意事项

  1. 显存需求

    • Index-TTS需约4GB显存,长文本建议分段处理。

  2. 音质优化

    • 调整AudioCleanupNodefrequency_range(默认100-8000Hz)以保留人声频段。

  3. 音色控制

    • 修改IndexTTSNodeseed值可改变音色随机性。

  4. 常见问题

    • 中文文本需避免特殊符号,否则可能生成乱码语音。

    • 参考音频背景噪声过大会影响克隆效果,建议提前降噪。

常见问题