### [KittenTTS 轻量级语音合成：可以在CPU上跑的TTS语音合成模型，仅25M，端侧 AI 的“嘴巴”](https://www.appmiao.com/article/3160)

**Published:** 2026-03-20T08:13:15

**Author:** 阿喵

**Excerpt:** 阿喵前言 现在虽然大模型很火，但在很多实际场景下（比如智能家居、手持翻译机），我们并不需要一个几十 GB 的巨无霸，我们需要的是一个能跑在几百块钱硬件上、响应快、还不费电的“小帮手”。以往的高质量语音合成（TTS）往往离不开云端 API 或

## 阿喵前言

现在虽然大模型很火，但在很多实际场景下（比如智能家居、手持翻译机），我们并不需要一个几十 GB 的巨无霸，我们需要的是一个能跑在几百块钱硬件上、响应快、还不费电的“小帮手”。以往的高质量语音合成（TTS）往往离不开云端 API 或者昂贵的显卡，这既有隐私风险，又受限于网络。

今天阿喵分享的这个 **KittenTTS**，走的是一种“极致压缩”的硬核路线。它证明了不需要顶级的算力，只要优化得当，在 CPU 甚至单片机上也能跑出像模像样的声音。

## 项目介绍

**KittenTTS** 是由 KittenML 发布的轻量级语音合成项目。它提供了三款不同规格的模型，拥有参数量从 1500 万到 8000 万不等（15M/40M/80M 参数），其中最小的版本体积仅为 25MB。通过采用 **ONNX** 推理优化技术，它打破了“质量必须靠体积堆出来”的传统认知。它的出现，意味着语音交互的门槛被进一步拉低到了 IoT（物联网）级别。无需 GPU 即可在 CPU 上实现高质量的语音合成。

### 截图

![](https://pic.amiao.app/2026/03/20080956/SnowShot_2026-03-20_16-09-36-1024x540.jpeg)

### 特色

-   **极致轻量化**：最小模型 25MB，不仅节省存储空间，更大幅降低了对运行内存（RAM）的要求，是移动端和嵌入式设备的理想选择。
-   **原生 CPU 运行**：无需高端 GPU，在普通的手机、平板甚至是一些高性能微控制器上都能流畅运行，彻底告别了对云端接口的依赖。
-   **隐私安全保障**：所有音频合成过程都在本地完成，数据不出户。这对于医疗设备、个人助理等隐私敏感型应用来说，是核心竞争优势。
-   **高效推理架构**：基于 ONNX 引擎进行优化，推理延迟极低，能够实现几乎“即点即说”的实时交互体验。
-   **SOTA 级的权衡**：在如此小的体积下，依然保持了相当不错的音质表现，很好地平衡了模型体积与合成质量。
-   **内置8种语音**——贝拉、贾斯珀、露娜、布鲁诺、罗西、雨果、琪琪和利奥
-   **可调节语速**`speed`——通过参数控制播放速度
-   **文本预处理**——内置管道可处理数字、货币、单位等。
-   **24 kHz 输出**——标准采样率下的高品质音频

## 使用建议

目前 KittenTTS 官方版本主要支持英文。不过根据项目规划，**预计在今年五月份左右会正式支持中文**。届时对于国内的开发者来说，这将会是一个非常实用的端侧语音解决方案。

如果你想在本地尝试这个“小钢炮”，可以按照以下步骤操作：

1.  **环境准备**：确保你的环境支持 Python 和 ONNX Runtime。
2.  **克隆仓库**：从 GitHub 获取源码并安装必要的依赖项。
3.  **模型选择**：根据你的硬件性能，在 15M（速度最快）、40M（平衡型）和 80M（音质最好）之间进行选择。
4.  **本地推理**：直接运行推理脚本，体验这种“离线即时说话”的快感。

## 项目地址

**GitHub 源码**：[https://github.com/KittenML/KittenTTS](https://github.com/KittenML/KittenTTS)

在线测试：[](https://github.com/KittenML/KittenTTS#try-it-online)[在Hugging Face Spaces](https://huggingface.co/spaces/KittenML/KittenTTS-Demo)上直接在浏览器中尝试 Kitten TTS 。

* * *

这种把 AI 往“小”里做的项目，其实比一味求“大”更考验算法功力。如果你正好有手持设备或离线语音的需求，建议先把这个库收藏起来

**Tags:** AI, TTS, 大模型, 源码, 语音合成

**Categories:** 人工智能

---