FireRedTTS-2 – 面向播客和聊天机器人的AI长对话语音生成

人工智能
25年10月25日
编辑

amiao

最新修改 2025年 10月 25日 by amiao

概述

FireRedTTS‑2 是一种用于多说话人对话生成的长格式流式 TTS 系统，可提供稳定、自然的语音，具有可靠的说话人切换和上下文感知的韵律。

长对话语音合成系统，可通过提供文本和可选参考音频生成自然流畅的语音输出，支持长对话场景下的连续发言，确保语气与节奏自然连贯，支持中文、英文、日文、韩文、法文、德文及俄文，具备零样本语音克隆能力，适用于播客、聊天机器人等多发言人场景，免费开源，使用 Python 开发。

亮点🔥

长对话语音生成：目前支持 4 位说话者的 3 分钟对话，并且可以通过扩展训练语料库轻松扩展到更多说话者的更长对话。
多语言支持：支持英语、中文、日语、韩语、法语、德语、俄语等多种语言。支持零样本语音克隆，适用于跨语言和代码切换场景。
超低延迟：基于新的12.5Hz 流式语音标记器，我们采用了双变压器架构，该架构在文本语音交错序列上运行，从而实现了灵活的逐句生成并减少了首包延迟。具体而言，在 L20 GPU 上，我们的首包延迟低至 140ms，同时保持高质量的音频输出。
强稳定性：我们的模型在独白和对话测试中都实现了高相似度和低WER/CER。
随机音色生成：用于创建 ASR/语音交互数据。

演示

随机音色生成和多语言支持 多语言360p.mp4

零样本播客生成 聊天克隆_360p.mp4

针对特定演讲者进行精细调整的播客生成

⚠️演讲者声音：播客《肥话连篇》主持人“肥杰”和“惠子”。未经授权禁止使用。

⚠️声音来源：播客《肥话连篇》主播“肥杰”和“惠子”，尚未授权不能使用。演示_v7_360p.mp4

项目地址

github：https://github.com/FireRedTeam/FireRedTTS2

AI TTS 对话生成源码

Everywhere：适用于桌面的上下文感知 AI 助手，智能响应，无缝集成多个 LLM 和 MCP 工具

2025-10-16 10:53:13

DeepSeek OCR APP- 由 DeepSeek-OCR 提供支持的 OCR Web 前端OCR程序，直接在线识别各种图像

2025-10-25 9:40:26

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

❯

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部