利用Index-TTS工作流解锁文本到语音的强大功能
通过Index-TTS解锁自然语音转换:克隆声音、增强音频等!
- 阅读时间
- 4 分钟
工作流概览
通过Index-TTS解锁自然语音转换:克隆声音、增强音频等!
内容类型: Workflow
主要用途: Download
配置说明
- 打开工作流模板前,请先安装所需模型。
- 使用上方下载按钮将工作流 JSON 导入 ComfyUI。
1. 工作流概述

该工作流利用 Index-TTS 模型将文本转换为自然语音,支持 音色克隆 和 音频增强,适用于有声书、配音等场景。核心功能包括:
文本转语音:输入小说、对话等长文本,生成流畅语音。
音色模仿:基于参考音频(如“蔡徐坤.wav”)克隆说话人音色。
音频降噪:优化输出音质,减少背景噪声。
核心模型:
Index-TTS:主模型,负责文本生成语音(需安装插件
ComfyUI-Index-TTS)。音频处理工具:包括降噪(
AudioCleanupNode)、音色加载(TimbreAudioLoader)等。
2. 关键组件与安装
组件 | 功能 | 安装方式 |
|---|---|---|
IndexTTSNode | 核心文本转语音节点,支持长文本输入和音色克隆。 | 安装插件 |
TimbreAudioLoader | 加载音色参考音频(如“抖音-读小说.wav”),用于克隆说话风格。 | 同上,需将音频文件放入 |
AudioCleanupNode | 降噪和音频增强,调整参数如降噪强度(0.7)、频率范围(100-8000Hz)。 | 同上。 |
LoadAudio | 加载参考音频文件(如“蔡徐坤.wav”)。 | ComfyUI内置节点。 |
特殊依赖:
Index-TTS模型需通过插件安装,首次使用会自动下载所需模型文件(约2-3GB)。
3. 工作流结构
Group 1: 音频输入与音色克隆
输入:
参考音频(如
蔡徐坤.wav)通过LoadAudio加载。目标音色模板(如
抖音-读小说.wav)通过TimbreAudioLoader加载。
处理:
IndexTTSNode接收文本(如小说章节)和参考音频,生成语音。参数配置:语速(1.0)、情感强度(0.8)、种子值(1155511506)等。
Group 2: 音频后处理
输入:原始生成的语音。
处理:
AudioCleanupNode降噪(强度0.7)并增强高频细节。SaveAudio保存最终音频至audio/ComfyUI文件夹。
Group 3: 预览与输出
预览:通过
PreviewAudio实时试听结果。输出:保存为WAV文件(如
ComfyUI_20240513_142301.wav)。
4. 输入与输出
输入参数:
文本:支持长文本(示例中为4章小说内容)。
参考音频:需提供清晰的人声样本(建议10秒以上)。
音色模板(可选):如“抖音-读小说.wav”风格模板。
输出结果:
生成的语音文件(WAV格式),默认保存在
ComfyUI/audio文件夹。
5. 注意事项
显存需求:
Index-TTS需约4GB显存,长文本建议分段处理。
音质优化:
调整
AudioCleanupNode的frequency_range(默认100-8000Hz)以保留人声频段。
音色控制:
修改
IndexTTSNode的seed值可改变音色随机性。
常见问题:
中文文本需避免特殊符号,否则可能生成乱码语音。
参考音频背景噪声过大会影响克隆效果,建议提前降噪。