标签: 语音输入

  • PushToTalk – 语音输入助手,按住快捷键说话,松开自动转录并插入文本,AI 智能助手,语音控制一切

    PushToTalk 是一个高性能的桌面语音输入工具,集成了大语言模型(LLM)能力。支持两种工作模式

    1. 听写模式:按住 Ctrl+Win 说话,松开后自动转录并插入文本,支持 LLM 智能润色
    2. AI 助手模式:选中文本后按 Alt+Space 说话,用语音命令处理选中的文本;或直接提问获得答案

    软件介绍

    PushToTalk 是一个高性能的桌面语音输入工具。它不仅仅是一个语音转文字工具,更集成了大语言模型(LLM)能力。你可以按住 Ctrl+Win 说话,松开后应用会自动将你的语音转为文字,并根据你的设定进行润色、翻译或整理成邮件,最后自动粘贴到当前光标位置。支持豆包/千问

    截图

    核心特性

    双模式工作

    • 🎤 听写模式 – 传统的语音转文字功能
      • 按住模式:按住快捷键录音,松开停止(传统方式)
      • 松手模式:按一次 F2 开始录音,再按一次结束(防止误停)
    • 🤖 AI 助手模式 – 语音控制文本处理
      • 无选中文本:Q&A 模式,提问获得答案
      • 选中文本:语音命令处理文本(翻译、润色、总结、扩写等)

    核心功能

    • ⚡ 实时流式转录 – WebSocket 边录边传,极低延迟(< 500ms),松手即出字
    • 🧠 LLM 智能后处理 – 内置”文本润色”、”邮件整理”、”中译英”等预设,支持自定义 Prompt
    • ⌨️ 自定义快捷键 – 支持 73 种按键绑定(修饰键、字母、数字、功能键、方向键等)
    • 🔄 多 ASR 引擎 – 支持阿里云 Qwen、豆包 Doubao、SiliconFlow SenseVoice
    • 🛡️ 智能兜底 – 主引擎失败时自动切换到备用引擎,并行竞速
    • 🎨 可视化反馈 – 录音状态悬浮窗,实时波形显示,三种视觉状态
    • 🔊 音频反馈 – 录音开始/结束的清脆提示音,盲操也放心
    • 📜 历史记录 – 自动保存转录历史,支持搜索、复制、清空
    • 🚀 系统托盘 – 支持最小化到托盘、开机自启动
    • 🔄 自动更新 – 内置 6 个镜像源,自动检查并安装更新
    • 💾 多配置管理 – 支持保存多套 LLM 预设,通过界面快速切换不同场景

     快速开始

    安装

    1. 从 Releases 下载最新版本的安装包
    2. 运行 NSIS 安装程序完成安装
    3. 右键点击应用图标,选择”以管理员身份运行”

    ⚠️ 重要:必须以管理员身份运行才能使用全局快捷键功能

    配置

    快捷链接

    API Key申请教学文档

    1. ASR 配置(至少配置一个)

    阿里云 Qwen(推荐)

    • 超大量的免费额度,2025 年 3 月前基本用不完
    • 支持实时流式和 HTTP 两种模式
    • 获取 DashScope API Key
    豆包 Doubao(可选)

    硅基流动 SenseVoice(可选,免费)

    2. 快捷键配置(可自定义)

    听写模式

    • 默认快捷键:Ctrl + Win
    • 松手模式快捷键:F2
    • 可自定义为任意组合键(支持 73 种按键)

    AI 助手模式

    • 默认快捷键:Alt + Space
    • 可自定义为任意组合键

    3. LLM 配置(可选)

    听写模式 LLM(文本润色)

    • 用于对转录结果进行润色、翻译等后处理
    • 推荐使用免费的智谱 GLM-4-Flash
    • 获取智谱 API Key
    • 可添加多个自定义预设(文本润色、中译英、邮件整理等)
    AI 助手模式 LLM(必需)

    • 用于 AI 助手模式的文本处理和问答
    • 支持 OpenAI 兼容接口
    • 配置两个系统提示词:
      • Q&A 提示词:用于回答问题
      • 文本处理提示词:用于处理选中的文本

    4. 系统设置(可选)

    • 关闭时最小化到托盘 – 关闭窗口时保持后台运行
    • 开机自启动 – 系统启动时自动运行(需要管理员权限)

    5. 保存并启动

    点击”保存配置”并”启动助手”。


    📖 使用指南

    听写模式

    按住模式(传统方式)

    1. 将光标定位在任何输入框(微信、Word、VS Code)
    2. 按住 Ctrl + Win 键,听到”滴”声后开始说话
    3. 说完松开按键,听到结束提示音
    4. 等待处理(悬浮窗显示处理状态),文本将自动打字上屏

    松手模式(防误停)

    1. 将光标定位在输入框
    2. 按一次 F2 键(可自定义),听到”滴”声后开始说话
    3. 说话时手可以松开,防止长时间说话时误停
    4. 说完后再按一次 F2 键,听到结束提示音
    5. 等待处理,文本将自动打字上屏

    松手模式悬浮窗

    • 蓝色药丸状态,中间显示迷你波形
    • 左边 ❌ 按钮:取消录音
    • 右边 ✓ 按钮:结束录音并转录
    • 60 秒超时自动取消

    AI 助手模式

    Q&A 模式(无选中文本)

    1. 将光标定位在输入框
    2. 按住 Alt + Space 键(可自定义),说出你的问题
    3. 例如:”What is the capital of France?”
    4. 松开按键,LLM 将自动回答并插入答案

    文本处理模式(选中文本)

    1. 在任何应用中选中一段文本
    2. 按住 Alt + Space 键,说出你的命令
    3. 常用命令示例:
      • “翻译成英文” – 将选中的中文翻译成英文
      • “润色一下” – 优化选中的文本
      • “总结一下” – 生成摘要
      • “扩写成三段” – 扩展内容
      • “添加注释” – 为代码添加注释
    4. 松开按键,LLM 将处理选中的文本并替换

    历史记录

    在主界面的”历史记录”标签页可查看所有转录记录:

    • 显示转录文本、时间、模式
    • 支持搜索功能
    • 点击复制按钮快速复制
    • 一键清空所有历史

    软件下载

    github:https://github.com/yyyzl/push-2-talk/releases/

    使用教程

  • 西瓜说:离线AI语音输入,对你的语音输入进行翻译、转写、润色等处理

    只需说出你的想法,系统会自动加工成专业、得体的文字输出,帮你轻松应对各种场景

    在应用设置中,你可以创建多个自定义人设模板。每个模板可以设定不同的风格和语气,比如专业助手、幽默段子手、会议记录员等。使用时快速切换,满足不同场景的需求。

    正在全力适配更多平台,优先选择了 Apple Silicon 是因为其优秀的性能能够更好地支持本地 AI 模型运行。Windows 和 Linux 版本正在开发中,敬请期待

    AI 模型经过优化,占用空间约 900 MB,相比带来的离线体验,这个代价是完全值得的。离线识别 + 在线精修,灵活使用。

    软件截图

    核心特性

    为创作者打造,让每一次语音输入都成为灵感的延伸

    本地二次转写:首次输出极快,二次优化精确。相同模型更优工程,离线情况下对实时识别内容二次优化,大大提升输出体验。

    AI 智能精修:支持标准 OpenAI 接口,一键翻译、转写、润色。说出你的想法,自动加工成专业话语。

    自定义人设:打造专属转写风格,百变星君就是你。随时切换,适应各种场景需求。

    使用场景

    从灵感闪现到专业输出,一站式搞定

    工作报告:语音转文字 + AI 润色,快速生成专业报告

    跨语言沟通:一键翻译,突破语言障碍

    社交互动:随时切换人设,让表达恰到好处

    软件下载

    下载安装包后直接安装即可,首次使用会自动下载 AI 模型。使用时按住快捷键(默认为 Fn)即可启动语音输入,松开后即可输入到任意文本框。在设置中配置 OpenAI 接口即可使用精修功能。

    官网地址:https://xiguasay.qwenkimi.com/

  • 闪电说:AI语音输入法,比打字快 4 倍,完全免费,无需注册

    软件介绍

    AI 对话、AI 编程、文档创作、聊天回复,所有应用都支持语音输入,智能语音输入,让文字输入更高效
    只需几步简单设置,即可开始使用,支持windows和macOS

    刚安装打开需要下载一个890M的语音识别模型,完成后即可离线使用AI语音识别

    软件截图

    特色功能

    毫秒级响应

    本地AI,快速准确

    绝对隐私

    数据不离开设备

    AI 纠错

    理解语义,智能优化表达

    软件下载

    官网地址:https://daiti.ai/

    新官网:https://shandianshuo.cn/