### [PushToTalk – 语音输入助手,按住快捷键说话,松开自动转录并插入文本,AI 智能助手,语音控制一切](https://www.appmiao.com/article/2665) **Published:** 2026-01-04T03:35:36 **Author:** 阿喵 **Excerpt:** PushToTalk 是一个高性能的桌面语音输入工具,集成了大语言模型(LLM)能力。支持两种工作模式: 软件介绍 PushToTalk 是一个高性能的桌面语音输入工具。它不仅仅是一个语音转文字工具,更集成了大语言模型(LLM)能力。你可以 PushToTalk 是一个高性能的桌面语音输入工具,集成了大语言模型(LLM)能力。支持**两种工作模式**: 1. **听写模式**:按住 `Ctrl+Win` 说话,松开后自动转录并插入文本,支持 LLM 智能润色 2. **AI 助手模式**:选中文本后按 `Alt+Space` 说话,用语音命令处理选中的文本;或直接提问获得答案 ## 软件介绍 PushToTalk 是一个高性能的桌面语音输入工具。它不仅仅是一个语音转文字工具,更集成了大语言模型(LLM)能力。你可以按住 Ctrl+Win 说话,松开后应用会自动将你的语音转为文字,并根据你的设定进行润色、翻译或整理成邮件,最后自动粘贴到当前光标位置。支持豆包/千问 ### 截图 ![](https://pic.amiao.app/2026/01/26063549/pushtotalk.png) ### 核心特性[](https://github.com/yyyzl/push-2-talk#-%E6%A0%B8%E5%BF%83%E7%89%B9%E6%80%A7) #### 双模式工作 [](https://github.com/yyyzl/push-2-talk#%E5%8F%8C%E6%A8%A1%E5%BC%8F%E5%B7%A5%E4%BD%9C) - 🎤 **听写模式** – 传统的语音转文字功能 - **按住模式**:按住快捷键录音,松开停止(传统方式) - **松手模式**:按一次 F2 开始录音,再按一次结束(防止误停) - 🤖 **AI 助手模式** – 语音控制文本处理 - **无选中文本**:Q&A 模式,提问获得答案 - **选中文本**:语音命令处理文本(翻译、润色、总结、扩写等) #### 核心功能 [](https://github.com/yyyzl/push-2-talk#%E6%A0%B8%E5%BF%83%E5%8A%9F%E8%83%BD) - ⚡ **实时流式转录** – WebSocket 边录边传,极低延迟( - 🧠 **LLM 智能后处理** – 内置”文本润色”、”邮件整理”、”中译英”等预设,支持自定义 Prompt - ⌨️ **自定义快捷键** – 支持 73 种按键绑定(修饰键、字母、数字、功能键、方向键等) - 🔄 **多 ASR 引擎** – 支持阿里云 Qwen、豆包 Doubao、SiliconFlow SenseVoice - 🛡️ **智能兜底** – 主引擎失败时自动切换到备用引擎,并行竞速 - 🎨 **可视化反馈** – 录音状态悬浮窗,实时波形显示,三种视觉状态 - 🔊 **音频反馈** – 录音开始/结束的清脆提示音,盲操也放心 - 📜 **历史记录** – 自动保存转录历史,支持搜索、复制、清空 - 🚀 **系统托盘** – 支持最小化到托盘、开机自启动 - 🔄 **自动更新** – 内置 6 个镜像源,自动检查并安装更新 - 💾 **多配置管理** – 支持保存多套 LLM 预设,通过界面快速切换不同场景 ##  快速开始[](https://github.com/yyyzl/push-2-talk#-%E5%BF%AB%E9%80%9F%E5%BC%80%E5%A7%8B) ### 安装[](https://github.com/yyyzl/push-2-talk#%E5%AE%89%E8%A3%85) 1. 从 [Releases](https://github.com/your-repo/releases) 下载最新版本的安装包 2. 运行 NSIS 安装程序完成安装 3. 右键点击应用图标,选择”以管理员身份运行” > ⚠️ **重要**:必须以管理员身份运行才能使用全局快捷键功能 ### 配置 [](https://github.com/yyyzl/push-2-talk#%E9%85%8D%E7%BD%AE)快捷链接[](https://github.com/yyyzl/push-2-talk#%E5%BF%AB%E6%8D%B7%E9%93%BE%E6%8E%A5) [API Key申请教学文档](https://ncn18msloi7t.feishu.cn/wiki/ZnBZwSNjpisUdYkKks1cbes8nGb) #### 1\. ASR 配置(至少配置一个) [](https://github.com/yyyzl/push-2-talk#1-asr-%E9%85%8D%E7%BD%AE%E8%87%B3%E5%B0%91%E9%85%8D%E7%BD%AE%E4%B8%80%E4%B8%AA) ##### 阿里云 Qwen(推荐) [](https://github.com/yyyzl/push-2-talk#%E9%98%BF%E9%87%8C%E4%BA%91-qwen%E6%8E%A8%E8%8D%90) - 超大量的免费额度,2025 年 3 月前基本用不完 - 支持实时流式和 HTTP 两种模式 - [获取 DashScope API Key](https://bailian.console.aliyun.com/?tab=model#/api-key) ##### 豆包 Doubao(可选) [](https://github.com/yyyzl/push-2-talk#%E8%B1%86%E5%8C%85-doubao%E5%8F%AF%E9%80%89) - 支持实时流式和 HTTP 两种模式 - [录音文件识别大模型-极速版开通](https://console.volcengine.com/ark/region:ark+cn-beijing/tts/recordingRecognition) - [流式语音识别大模型-小时版开通](https://console.volcengine.com/ark/region:ark+cn-beijing/tts/speechRecognition) - 注意:App ID 和 Access Token 在网页下方 ##### 硅基流动 SenseVoice(可选,免费) [](https://github.com/yyyzl/push-2-talk#%E7%A1%85%E5%9F%BA%E6%B5%81%E5%8A%A8-sensevoice%E5%8F%AF%E9%80%89%E5%85%8D%E8%B4%B9) - 免费使用的备用引擎 - 可作为主引擎的智能兜底 - [获取 SiliconFlow API Key](https://cloud.siliconflow.cn/me/account/ak) #### 2\. 快捷键配置(可自定义) [](https://github.com/yyyzl/push-2-talk#2-%E5%BF%AB%E6%8D%B7%E9%94%AE%E9%85%8D%E7%BD%AE%E5%8F%AF%E8%87%AA%E5%AE%9A%E4%B9%89) **听写模式**: - 默认快捷键:`Ctrl + Win` - 松手模式快捷键:`F2` - 可自定义为任意组合键(支持 73 种按键) **AI 助手模式**: - 默认快捷键:`Alt + Space` - 可自定义为任意组合键 #### 3\. LLM 配置(可选) [](https://github.com/yyyzl/push-2-talk#3-llm-%E9%85%8D%E7%BD%AE%E5%8F%AF%E9%80%89) ##### 听写模式 LLM(文本润色) [](https://github.com/yyyzl/push-2-talk#%E5%90%AC%E5%86%99%E6%A8%A1%E5%BC%8F-llm%E6%96%87%E6%9C%AC%E6%B6%A6%E8%89%B2) - 用于对转录结果进行润色、翻译等后处理 - 推荐使用免费的智谱 GLM-4-Flash - [获取智谱 API Key](https://docs.bigmodel.cn/cn/guide/models/free/glm-4-flash-250414) - 可添加多个自定义预设(文本润色、中译英、邮件整理等) ##### AI 助手模式 LLM(必需) [](https://github.com/yyyzl/push-2-talk#ai-%E5%8A%A9%E6%89%8B%E6%A8%A1%E5%BC%8F-llm%E5%BF%85%E9%9C%80) - 用于 AI 助手模式的文本处理和问答 - 支持 OpenAI 兼容接口 - 配置两个系统提示词: - **Q&A 提示词**:用于回答问题 - **文本处理提示词**:用于处理选中的文本 #### 4\. 系统设置(可选) [](https://github.com/yyyzl/push-2-talk#4-%E7%B3%BB%E7%BB%9F%E8%AE%BE%E7%BD%AE%E5%8F%AF%E9%80%89) - **关闭时最小化到托盘** – 关闭窗口时保持后台运行 - **开机自启动** – 系统启动时自动运行(需要管理员权限) #### 5\. 保存并启动 [](https://github.com/yyyzl/push-2-talk#5-%E4%BF%9D%E5%AD%98%E5%B9%B6%E5%90%AF%E5%8A%A8) 点击”保存配置”并”启动助手”。 * * * ## 📖 使用指南 [](https://github.com/yyyzl/push-2-talk#-%E4%BD%BF%E7%94%A8%E6%8C%87%E5%8D%97) ### 听写模式 [](https://github.com/yyyzl/push-2-talk#%E5%90%AC%E5%86%99%E6%A8%A1%E5%BC%8F) #### 按住模式(传统方式) [](https://github.com/yyyzl/push-2-talk#%E6%8C%89%E4%BD%8F%E6%A8%A1%E5%BC%8F%E4%BC%A0%E7%BB%9F%E6%96%B9%E5%BC%8F) 1. 将光标定位在任何输入框(微信、Word、VS Code) 2. 按住 `Ctrl` + `Win` 键,听到”滴”声后开始说话 3. 说完松开按键,听到结束提示音 4. 等待处理(悬浮窗显示处理状态),文本将自动打字上屏 #### 松手模式(防误停) [](https://github.com/yyyzl/push-2-talk#%E6%9D%BE%E6%89%8B%E6%A8%A1%E5%BC%8F%E9%98%B2%E8%AF%AF%E5%81%9C) 1. 将光标定位在输入框 2. 按一次 `F2` 键(可自定义),听到”滴”声后开始说话 3. 说话时手可以松开,防止长时间说话时误停 4. 说完后再按一次 `F2` 键,听到结束提示音 5. 等待处理,文本将自动打字上屏 **松手模式悬浮窗**: - 蓝色药丸状态,中间显示迷你波形 - 左边 ❌ 按钮:取消录音 - 右边 ✓ 按钮:结束录音并转录 - 60 秒超时自动取消 ### AI 助手模式 [](https://github.com/yyyzl/push-2-talk#ai-%E5%8A%A9%E6%89%8B%E6%A8%A1%E5%BC%8F) #### Q&A 模式(无选中文本) [](https://github.com/yyyzl/push-2-talk#qa-%E6%A8%A1%E5%BC%8F%E6%97%A0%E9%80%89%E4%B8%AD%E6%96%87%E6%9C%AC) 1. 将光标定位在输入框 2. 按住 `Alt` + `Space` 键(可自定义),说出你的问题 3. 例如:”What is the capital of France?” 4. 松开按键,LLM 将自动回答并插入答案 #### 文本处理模式(选中文本) [](https://github.com/yyyzl/push-2-talk#%E6%96%87%E6%9C%AC%E5%A4%84%E7%90%86%E6%A8%A1%E5%BC%8F%E9%80%89%E4%B8%AD%E6%96%87%E6%9C%AC) 1. 在任何应用中选中一段文本 2. 按住 `Alt` + `Space` 键,说出你的命令 3. 常用命令示例: - “翻译成英文” – 将选中的中文翻译成英文 - “润色一下” – 优化选中的文本 - “总结一下” – 生成摘要 - “扩写成三段” – 扩展内容 - “添加注释” – 为代码添加注释 4. 松开按键,LLM 将处理选中的文本并替换 ### 历史记录 [](https://github.com/yyyzl/push-2-talk#%E5%8E%86%E5%8F%B2%E8%AE%B0%E5%BD%95) 在主界面的”历史记录”标签页可查看所有转录记录: - 显示转录文本、时间、模式 - 支持搜索功能 - 点击复制按钮快速复制 - 一键清空所有历史 ## 软件下载 github:[https://github.com/yyyzl/push-2-talk/releases/](https://github.com/yyyzl/push-2-talk/releases/) [使用教程](https://ncn18msloi7t.feishu.cn/wiki/NFM3wAcWNi0IGTkUqkVckxWWntb) **Tags:** AI语音转文本, windows, 语音输入 **Categories:** 人工智能, 软件推荐 ---