最新修改 2026年 1月 4日 by amiao
PushToTalk 是一个高性能的桌面语音输入工具,集成了大语言模型(LLM)能力。支持两种工作模式:
- 听写模式:按住
Ctrl+Win说话,松开后自动转录并插入文本,支持 LLM 智能润色 - AI 助手模式:选中文本后按
Alt+Space说话,用语音命令处理选中的文本;或直接提问获得答案
软件介绍
PushToTalk 是一个高性能的桌面语音输入工具。它不仅仅是一个语音转文字工具,更集成了大语言模型(LLM)能力。你可以按住 Ctrl+Win 说话,松开后应用会自动将你的语音转为文字,并根据你的设定进行润色、翻译或整理成邮件,最后自动粘贴到当前光标位置。支持豆包/千问
截图

核心特性
双模式工作
- 🎤 听写模式 – 传统的语音转文字功能
- 按住模式:按住快捷键录音,松开停止(传统方式)
- 松手模式:按一次 F2 开始录音,再按一次结束(防止误停)
- 🤖 AI 助手模式 – 语音控制文本处理
- 无选中文本:Q&A 模式,提问获得答案
- 选中文本:语音命令处理文本(翻译、润色、总结、扩写等)
核心功能
- ⚡ 实时流式转录 – WebSocket 边录边传,极低延迟(< 500ms),松手即出字
- 🧠 LLM 智能后处理 – 内置”文本润色”、”邮件整理”、”中译英”等预设,支持自定义 Prompt
- ⌨️ 自定义快捷键 – 支持 73 种按键绑定(修饰键、字母、数字、功能键、方向键等)
- 🔄 多 ASR 引擎 – 支持阿里云 Qwen、豆包 Doubao、SiliconFlow SenseVoice
- 🛡️ 智能兜底 – 主引擎失败时自动切换到备用引擎,并行竞速
- 🎨 可视化反馈 – 录音状态悬浮窗,实时波形显示,三种视觉状态
- 🔊 音频反馈 – 录音开始/结束的清脆提示音,盲操也放心
- 📜 历史记录 – 自动保存转录历史,支持搜索、复制、清空
- 🚀 系统托盘 – 支持最小化到托盘、开机自启动
- 🔄 自动更新 – 内置 6 个镜像源,自动检查并安装更新
- 💾 多配置管理 – 支持保存多套 LLM 预设,通过界面快速切换不同场景
快速开始
安装
- 从 Releases 下载最新版本的安装包
- 运行 NSIS 安装程序完成安装
- 右键点击应用图标,选择”以管理员身份运行”
⚠️ 重要:必须以管理员身份运行才能使用全局快捷键功能
配置
1. ASR 配置(至少配置一个)
阿里云 Qwen(推荐)
- 超大量的免费额度,2025 年 3 月前基本用不完
- 支持实时流式和 HTTP 两种模式
- 获取 DashScope API Key
豆包 Doubao(可选)
- 支持实时流式和 HTTP 两种模式
- 录音文件识别大模型-极速版开通
- 流式语音识别大模型-小时版开通
- 注意:App ID 和 Access Token 在网页下方
硅基流动 SenseVoice(可选,免费)
- 免费使用的备用引擎
- 可作为主引擎的智能兜底
- 获取 SiliconFlow API Key
2. 快捷键配置(可自定义)
听写模式:
- 默认快捷键:
Ctrl + Win - 松手模式快捷键:
F2 - 可自定义为任意组合键(支持 73 种按键)
AI 助手模式:
- 默认快捷键:
Alt + Space - 可自定义为任意组合键
3. LLM 配置(可选)
听写模式 LLM(文本润色)
- 用于对转录结果进行润色、翻译等后处理
- 推荐使用免费的智谱 GLM-4-Flash
- 获取智谱 API Key
- 可添加多个自定义预设(文本润色、中译英、邮件整理等)
AI 助手模式 LLM(必需)
- 用于 AI 助手模式的文本处理和问答
- 支持 OpenAI 兼容接口
- 配置两个系统提示词:
- Q&A 提示词:用于回答问题
- 文本处理提示词:用于处理选中的文本
4. 系统设置(可选)
- 关闭时最小化到托盘 – 关闭窗口时保持后台运行
- 开机自启动 – 系统启动时自动运行(需要管理员权限)
5. 保存并启动
点击”保存配置”并”启动助手”。
📖 使用指南
听写模式
按住模式(传统方式)
- 将光标定位在任何输入框(微信、Word、VS Code)
- 按住
Ctrl+Win键,听到”滴”声后开始说话 - 说完松开按键,听到结束提示音
- 等待处理(悬浮窗显示处理状态),文本将自动打字上屏
松手模式(防误停)
- 将光标定位在输入框
- 按一次
F2键(可自定义),听到”滴”声后开始说话 - 说话时手可以松开,防止长时间说话时误停
- 说完后再按一次
F2键,听到结束提示音 - 等待处理,文本将自动打字上屏
松手模式悬浮窗:
- 蓝色药丸状态,中间显示迷你波形
- 左边 ❌ 按钮:取消录音
- 右边 ✓ 按钮:结束录音并转录
- 60 秒超时自动取消
AI 助手模式
Q&A 模式(无选中文本)
- 将光标定位在输入框
- 按住
Alt+Space键(可自定义),说出你的问题 - 例如:”What is the capital of France?”
- 松开按键,LLM 将自动回答并插入答案
文本处理模式(选中文本)
- 在任何应用中选中一段文本
- 按住
Alt+Space键,说出你的命令 - 常用命令示例:
- “翻译成英文” – 将选中的中文翻译成英文
- “润色一下” – 优化选中的文本
- “总结一下” – 生成摘要
- “扩写成三段” – 扩展内容
- “添加注释” – 为代码添加注释
- 松开按键,LLM 将处理选中的文本并替换
历史记录
在主界面的”历史记录”标签页可查看所有转录记录:
- 显示转录文本、时间、模式
- 支持搜索功能
- 点击复制按钮快速复制
- 一键清空所有历史
