KittenTTS 轻量级语音合成:可以在CPU上跑的TTS语音合成模型,仅25M,端侧 AI 的“嘴巴”

发布于
1

阿喵前言

现在虽然大模型很火,但在很多实际场景下(比如智能家居、手持翻译机),我们并不需要一个几十 GB 的巨无霸,我们需要的是一个能跑在几百块钱硬件上、响应快、还不费电的“小帮手”。以往的高质量语音合成(TTS)往往离不开云端 API 或者昂贵的显卡,这既有隐私风险,又受限于网络。

今天阿喵分享的这个 KittenTTS,走的是一种“极致压缩”的硬核路线。它证明了不需要顶级的算力,只要优化得当,在 CPU 甚至单片机上也能跑出像模像样的声音。

项目介绍

KittenTTS 是由 KittenML 发布的轻量级语音合成项目。它提供了三款不同规格的模型,拥有参数量从 1500 万到 8000 万不等(15M/40M/80M 参数),其中最小的版本体积仅为 25MB。通过采用 ONNX 推理优化技术,它打破了“质量必须靠体积堆出来”的传统认知。它的出现,意味着语音交互的门槛被进一步拉低到了 IoT(物联网)级别。无需 GPU 即可在 CPU 上实现高质量的语音合成。

截图

特色

  • 极致轻量化:最小模型 25MB,不仅节省存储空间,更大幅降低了对运行内存(RAM)的要求,是移动端和嵌入式设备的理想选择。
  • 原生 CPU 运行:无需高端 GPU,在普通的手机、平板甚至是一些高性能微控制器上都能流畅运行,彻底告别了对云端接口的依赖。
  • 隐私安全保障:所有音频合成过程都在本地完成,数据不出户。这对于医疗设备、个人助理等隐私敏感型应用来说,是核心竞争优势。
  • 高效推理架构:基于 ONNX 引擎进行优化,推理延迟极低,能够实现几乎“即点即说”的实时交互体验。
  • SOTA 级的权衡:在如此小的体积下,依然保持了相当不错的音质表现,很好地平衡了模型体积与合成质量。
  • 内置8种语音——贝拉、贾斯珀、露娜、布鲁诺、罗西、雨果、琪琪和利奥
  • 可调节语速speed——通过参数控制播放速度
  • 文本预处理——内置管道可处理数字、货币、单位等。
  • 24 kHz 输出——标准采样率下的高品质音频

使用建议

目前 KittenTTS 官方版本主要支持英文。不过根据项目规划,预计在今年五月份左右会正式支持中文。届时对于国内的开发者来说,这将会是一个非常实用的端侧语音解决方案。

如果你想在本地尝试这个“小钢炮”,可以按照以下步骤操作:

  1. 环境准备:确保你的环境支持 Python 和 ONNX Runtime。
  2. 克隆仓库:从 GitHub 获取源码并安装必要的依赖项。
  3. 模型选择:根据你的硬件性能,在 15M(速度最快)、40M(平衡型)和 80M(音质最好)之间进行选择。
  4. 本地推理:直接运行推理脚本,体验这种“离线即时说话”的快感。

项目地址

GitHub 源码https://github.com/KittenML/KittenTTS

在线测试:在Hugging Face Spaces上直接在浏览器中尝试 Kitten TTS 。


这种把 AI 往“小”里做的项目,其实比一味求“大”更考验算法功力。如果你正好有手持设备或离线语音的需求,建议先把这个库收藏起来

0 点赞
0 收藏
分享
0 讨论
反馈
0 / 600
0 条评论
热门最新