KittenTTS 轻量级语音合成：可以在CPU上跑的TTS语音合成模型，仅25M，端侧 AI 的“嘴巴”

阿喵前言

现在虽然大模型很火，但在很多实际场景下（比如智能家居、手持翻译机），我们并不需要一个几十 GB 的巨无霸，我们需要的是一个能跑在几百块钱硬件上、响应快、还不费电的“小帮手”。以往的高质量语音合成（TTS）往往离不开云端 API 或者昂贵的显卡，这既有隐私风险，又受限于网络。

今天阿喵分享的这个 KittenTTS，走的是一种“极致压缩”的硬核路线。它证明了不需要顶级的算力，只要优化得当，在 CPU 甚至单片机上也能跑出像模像样的声音。

项目介绍

KittenTTS 是由 KittenML 发布的轻量级语音合成项目。它提供了三款不同规格的模型，拥有参数量从 1500 万到 8000 万不等（15M/40M/80M 参数），其中最小的版本体积仅为 25MB。通过采用 ONNX 推理优化技术，它打破了“质量必须靠体积堆出来”的传统认知。它的出现，意味着语音交互的门槛被进一步拉低到了 IoT（物联网）级别。无需 GPU 即可在 CPU 上实现高质量的语音合成。

截图

特色

极致轻量化：最小模型 25MB，不仅节省存储空间，更大幅降低了对运行内存（RAM）的要求，是移动端和嵌入式设备的理想选择。
原生 CPU 运行：无需高端 GPU，在普通的手机、平板甚至是一些高性能微控制器上都能流畅运行，彻底告别了对云端接口的依赖。
隐私安全保障：所有音频合成过程都在本地完成，数据不出户。这对于医疗设备、个人助理等隐私敏感型应用来说，是核心竞争优势。
高效推理架构：基于 ONNX 引擎进行优化，推理延迟极低，能够实现几乎“即点即说”的实时交互体验。
SOTA 级的权衡：在如此小的体积下，依然保持了相当不错的音质表现，很好地平衡了模型体积与合成质量。
内置8种语音——贝拉、贾斯珀、露娜、布鲁诺、罗西、雨果、琪琪和利奥
可调节语速speed——通过参数控制播放速度
文本预处理——内置管道可处理数字、货币、单位等。
24 kHz 输出——标准采样率下的高品质音频

使用建议

目前 KittenTTS 官方版本主要支持英文。不过根据项目规划，预计在今年五月份左右会正式支持中文。届时对于国内的开发者来说，这将会是一个非常实用的端侧语音解决方案。

如果你想在本地尝试这个“小钢炮”，可以按照以下步骤操作：

环境准备：确保你的环境支持 Python 和 ONNX Runtime。
克隆仓库：从 GitHub 获取源码并安装必要的依赖项。
模型选择：根据你的硬件性能，在 15M（速度最快）、40M（平衡型）和 80M（音质最好）之间进行选择。
本地推理：直接运行推理脚本，体验这种“离线即时说话”的快感。

项目地址

GitHub 源码：https://github.com/KittenML/KittenTTS

在线测试：在Hugging Face Spaces上直接在浏览器中尝试 Kitten TTS 。

这种把 AI 往“小”里做的项目，其实比一味求“大”更考验算法功力。如果你正好有手持设备或离线语音的需求，建议先把这个库收藏起来