### [KittenTTS 轻量级语音合成:可以在CPU上跑的TTS语音合成模型,仅25M,端侧 AI 的“嘴巴”](https://www.appmiao.com/article/3160) **Published:** 2026-03-20T08:13:15 **Author:** 阿喵 **Excerpt:** 阿喵前言 现在虽然大模型很火,但在很多实际场景下(比如智能家居、手持翻译机),我们并不需要一个几十 GB 的巨无霸,我们需要的是一个能跑在几百块钱硬件上、响应快、还不费电的“小帮手”。以往的高质量语音合成(TTS)往往离不开云端 API 或 ## 阿喵前言 现在虽然大模型很火,但在很多实际场景下(比如智能家居、手持翻译机),我们并不需要一个几十 GB 的巨无霸,我们需要的是一个能跑在几百块钱硬件上、响应快、还不费电的“小帮手”。以往的高质量语音合成(TTS)往往离不开云端 API 或者昂贵的显卡,这既有隐私风险,又受限于网络。 今天阿喵分享的这个 **KittenTTS**,走的是一种“极致压缩”的硬核路线。它证明了不需要顶级的算力,只要优化得当,在 CPU 甚至单片机上也能跑出像模像样的声音。 ## 项目介绍 **KittenTTS** 是由 KittenML 发布的轻量级语音合成项目。它提供了三款不同规格的模型,拥有参数量从 1500 万到 8000 万不等(15M/40M/80M 参数),其中最小的版本体积仅为 25MB。通过采用 **ONNX** 推理优化技术,它打破了“质量必须靠体积堆出来”的传统认知。它的出现,意味着语音交互的门槛被进一步拉低到了 IoT(物联网)级别。无需 GPU 即可在 CPU 上实现高质量的语音合成。 ### 截图 ![](https://pic.amiao.app/2026/03/20080956/SnowShot_2026-03-20_16-09-36-1024x540.jpeg) ### 特色 - **极致轻量化**:最小模型 25MB,不仅节省存储空间,更大幅降低了对运行内存(RAM)的要求,是移动端和嵌入式设备的理想选择。 - **原生 CPU 运行**:无需高端 GPU,在普通的手机、平板甚至是一些高性能微控制器上都能流畅运行,彻底告别了对云端接口的依赖。 - **隐私安全保障**:所有音频合成过程都在本地完成,数据不出户。这对于医疗设备、个人助理等隐私敏感型应用来说,是核心竞争优势。 - **高效推理架构**:基于 ONNX 引擎进行优化,推理延迟极低,能够实现几乎“即点即说”的实时交互体验。 - **SOTA 级的权衡**:在如此小的体积下,依然保持了相当不错的音质表现,很好地平衡了模型体积与合成质量。 - **内置8种语音**——贝拉、贾斯珀、露娜、布鲁诺、罗西、雨果、琪琪和利奥 - **可调节语速**`speed`——通过参数控制播放速度 - **文本预处理**——内置管道可处理数字、货币、单位等。 - **24 kHz 输出**——标准采样率下的高品质音频 ## 使用建议 目前 KittenTTS 官方版本主要支持英文。不过根据项目规划,**预计在今年五月份左右会正式支持中文**。届时对于国内的开发者来说,这将会是一个非常实用的端侧语音解决方案。 如果你想在本地尝试这个“小钢炮”,可以按照以下步骤操作: 1. **环境准备**:确保你的环境支持 Python 和 ONNX Runtime。 2. **克隆仓库**:从 GitHub 获取源码并安装必要的依赖项。 3. **模型选择**:根据你的硬件性能,在 15M(速度最快)、40M(平衡型)和 80M(音质最好)之间进行选择。 4. **本地推理**:直接运行推理脚本,体验这种“离线即时说话”的快感。 ## 项目地址 **GitHub 源码**:[https://github.com/KittenML/KittenTTS](https://github.com/KittenML/KittenTTS) 在线测试:[](https://github.com/KittenML/KittenTTS#try-it-online)[在Hugging Face Spaces](https://huggingface.co/spaces/KittenML/KittenTTS-Demo)上直接在浏览器中尝试 Kitten TTS 。 * * * 这种把 AI 往“小”里做的项目,其实比一味求“大”更考验算法功力。如果你正好有手持设备或离线语音的需求,建议先把这个库收藏起来 **Tags:** AI, TTS, 大模型, 源码, 语音合成 **Categories:** 人工智能 ---