设置说明

模型

模型路径

Whisper 模型文件的存放目录。首次使用时会自动下载到默认路径，你也可以手动指定。

模型选择

Whisper 模型

tiny：最快，准确率最低，适合测试
base：速度快，准确率一般，适合日常使用
small：平衡选择，推荐入门
medium：准确率高，速度适中
large：最高准确率，速度最慢，需要更多内存
turbo：优化版 large，速度更快

Qwen3-ASR 模型

0.6B：约 1.7 GB，轻量快速，中文场景推荐
1.7B：约 4.5 GB，复杂音频更准，需 Pro

在设置 → 模型中可切换 ASR 引擎。Qwen3-ASR 更适合中文、方言与中英混说，详见 Qwen3-ASR 引擎。

GPU 加速

macOS：自动使用 CoreML / ANE（Apple Silicon）
Windows/Linux：选择 GPU 设备索引，支持 Vulkan

转写选项

语言

auto：自动检测（准确率稍低）
指定语言：如 zh（中文）、en（英语）、ja（日语）等

温度

控制采样随机性。0 为完全确定，1 为最随机。默认 0，建议保持。

稳定时间戳

基于 Silero VAD 的精准时间戳模式，开启后字幕时间更准确，但处理稍慢。

说话人分离

开启后需要下载额外的 ONNX 模型。支持 2-4 人分离。

录音

默认设备：设置默认麦克风和系统音频设备
录音格式：WAV（无损）或 MP3（压缩）
保存路径：录音文件的默认保存位置
自动转写：录音结束后是否自动开始转写

AI

LLM 提供商

选择使用的 AI 服务：

Ollama：本地运行，数据不出设备
Claude / DeepSeek / Gemini / 通义千问 / 智谱：云端 API，需填写 Key

API Key

在对应提供商官网获取 API Key 后填入。Key 仅保存在本地，不会上传。

自定义 Prompt

编辑摘要、对话、润色等功能的默认 prompt 模板。

导出

默认格式：设置默认导出格式
包含时间戳：导出时是否包含时间信息
编码：UTF-8 或 UTF-8-BOM

快捷键

快捷键	功能
`Cmd/Ctrl + T`	开始转写
`Cmd/Ctrl + .`	中止转写
`Cmd/Ctrl + Shift + R`	开始/停止录音（全局）
`Cmd/Ctrl + E`	导出

最后更新于 2026年6月2日

用户反馈语言支持