### [FireRedTTS-2 – 面向播客和聊天机器人的AI长对话语音生成](https://www.appmiao.com/article/1839)

**Published:** 2025-10-25T01:26:45

**Author:** 阿喵

**Excerpt:** 概述 FireRedTTS‑2 是一种用于多说话人对话生成的长格式流式 TTS 系统，可提供稳定、自然的语音，具有可靠的说话人切换和上下文感知的韵律。 长对话语音合成系统，可通过提供文本和可选参考音频生成自然流畅的语音输出，支持长对话场景下

## 概述[](https://github.com/FireRedTeam/FireRedTTS2#overview)

**FireRedTTS‑2 是一种用于多说话人对话生成**的长格式流式 TTS 系统，可提供稳定、自然的语音，具有可靠的说话人切换和上下文感知的韵律。

长对话语音合成系统，可通过提供文本和可选参考音频生成自然流畅的语音输出，支持长对话场景下的连续发言，确保语气与节奏自然连贯，支持中文、英文、日文、韩文、法文、德文及俄文，具备零样本语音克隆能力，适用于播客、聊天机器人等多发言人场景，免费开源，使用 Python 开发。

## 亮点🔥[](https://github.com/FireRedTeam/FireRedTTS2#highlight)

-   **长对话语音生成**：目前支持 4 位说话者的 3 分钟对话，并且可以通过扩展训练语料库轻松扩展到更多说话者的更长对话。
-   **多语言支持**：支持英语、中文、日语、韩语、法语、德语、俄语等多种语言。支持零样本语音克隆，适用于跨语言和代码切换场景。
-   **超低延迟**：基于新的**12.5Hz 流式**语音标记器，我们采用了双变压器架构，该架构在文本语音交错序列上运行，从而实现了灵活的逐句生成并减少了首包延迟。具体而言，在 L20 GPU 上，我们的首包延迟低至 140ms，同时保持高质量的音频输出。
-   **强稳定性**：我们的模型在独白和对话测试中都实现了高相似度和低WER/CER。
-   **随机音色生成**：用于创建 ASR/语音交互数据。

## 演示

[](https://github.com/FireRedTeam/FireRedTTS2#demo-examples)

**随机音色生成和多语言支持** 多语言360p.mp4 

**零样本播客生成** 聊天克隆\_360p.mp4 

**针对特定演讲者进行精细调整的播客生成**

⚠️演讲者声音：播客《肥话连篇》主持人“肥杰”和“惠子”。未经授权禁止使用。

⚠️声音来源：播客《肥话连篇》主播“肥杰”和“惠子”，尚未授权不能使用。 演示\_v7\_360p.mp4 

## 项目地址

github：[https://github.com/FireRedTeam/FireRedTTS2](https://github.com/FireRedTeam/FireRedTTS2)

**Tags:** AI, TTS, 对话生成, 源码

**Categories:** 人工智能

---