语音转文本:离线语音识别 - Openclaw Skills
作者:互联网
2026-04-18
什么是 语音转文本?
Openclaw Skills 的语音转文本技能提供了一种强大的解决方案,可以在不依赖外部云 API 的情况下将口语转换为书面文本。通过利用 Vosk 工具包和 ffmpeg,该技能允许 AI 代理在本地处理语音消息和音频文件,确保数据隐私并降低延迟。对于优先考虑安全性以及在网络受限环境中需要可靠转录功能的用户来说,这是一个必不可少的组件。
该技能将原始音频数据转化为可操作的文本,从而使大语言模型 (LLM) 或其他自动化工作流能够进行进一步处理。它弥合了语音通信与基于文本的 AI 分析之间的差距,使 Openclaw Skills 在处理多样化媒体输入方面更加多才多艺。
下载入口:https://github.com/openclaw/skills/tree/main/skills/vae999/voice-to-text
安装与下载
1. ClawHub CLI
从源直接安装技能的最快方式。
npx clawhub@latest install voice-to-text
2. 手动安装
将技能文件夹复制到以下位置之一
全局模式~/.openclaw/skills/
工作区
/skills/
优先级:工作区 > 本地 > 内置
3. 提示词安装
将此提示词复制到 OpenClaw 即可自动安装。
请帮我使用 Clawhub 安装 voice-to-text。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。
语音转文本 应用场景
- 转录来自 T@elegrimm、WhatsApp 或微信等即时通讯应用的语音消息。
- 将会议录音或语音备忘录转换为可搜索的文本文件,用于个人知识管理。
- 使 AI 代理能够从各种音频文件格式中听取并处理语音指令。
- 在隐私至上的离线或物理隔离环境中处理敏感音频数据。
- 技能接收来自用户或集成平台的音频文件路径或语音消息。
- 调用 ffmpeg 将音频输入规范化为 16kHz 单声道 WAV 格式,这是识别引擎所需的标准。
- 技能从本地目录加载指定的 Vosk 语言模型。
- 处理后的音频流通过 Vosk 工具包识别语音模式并生成文本转录。
- 最终的文本输出返回给用户或传递给代理工作流的下一阶段。
语音转文本 配置指南
要开始使用 Openclaw Skills 的此转录工具,请按照以下安装步骤操作:
# 安装核心依赖
# 对于 macOS
brew install ffmpeg
pip install vosk
# 对于 Linux
apt-get install ffmpeg
pip install vosk
# 设置并下载英语模型
mkdir -p ~/.vosk/models && cd ~/.vosk/models
curl -LO https://alphacephei.com/vosk/models/vosk-model-small-en-us-0.15.zip
unzip vosk-model-small-en-us-0.15.zip
语音转文本 数据架构与分类体系
| 组件 | 描述 |
|---|---|
| 支持格式 | MP3, WAV, M4A, OGG, FLAC, AAC, WEBM |
| 模型存储 | 默认位于 ~/.vosk/models/ |
| 环境变量 | VOSK_MODEL_PATH 可用于在不同语言模型之间切换 |
| 转录输出 | 纯文本 UTF-8 字符串 |
name: voice-to-text
version: 1.0.0
description: Convert voice messages and audio files to text using Vosk offline speech recognition. Use when a user sends a voice message, audio file, or asks to transcribe speech to text.
homepage: https://alphacephei.com/vosk/
metadata:
{
"openclaw":
{
"emoji": "??",
"os": ["darwin", "linux"],
"requires": { "bins": ["ffmpeg"], "python": ["vosk"] },
"install":
[
{
"id": "brew-ffmpeg",
"kind": "brew",
"formula": "ffmpeg",
"bins": ["ffmpeg"],
"label": "Install ffmpeg via Homebrew",
},
{
"id": "pip-vosk",
"kind": "pip",
"package": "vosk",
"label": "Install Vosk via pip",
},
],
},
}
Voice to Text
Convert voice messages and audio files to text using Vosk, an offline speech recognition toolkit.
Setup
-
Install dependencies:
# macOS brew install ffmpeg pip install vosk # Linux apt-get install ffmpeg pip install vosk -
Download a Vosk model:
mkdir -p ~/.vosk/models && cd ~/.vosk/models # Chinese (small, fast) curl -LO https://alphacephei.com/vosk/models/vosk-model-small-cn-0.22.zip unzip vosk-model-small-cn-0.22.zip # English (small) curl -LO https://alphacephei.com/vosk/models/vosk-model-small-en-us-0.15.zip unzip vosk-model-small-en-us-0.15.zip
Usage
When the user provides a voice message or audio file path, run the transcription:
python3 ~/skills/voice-to-text/transcribe.py ""
For specific model selection, set the environment variable:
VOSK_MODEL_PATH=~/.vosk/models/vosk-model-cn-0.22 python3 ~/skills/voice-to-text/transcribe.py ""
Supported Audio Formats
- MP3, WAV, M4A, OGG, FLAC, AAC, WEBM
- Voice messages from WeChat, T@elegrimm, WhatsApp, etc.
Available Models
| Model | Language | Size | Notes |
|---|---|---|---|
| vosk-model-small-cn-0.22 | Chinese | 42M | Fast, good accuracy |
| vosk-model-cn-0.22 | Chinese | 1.3G | High accuracy |
| vosk-model-small-en-us-0.15 | English | 40M | Fast, good accuracy |
| vosk-model-en-us-0.22 | English | 1.8G | High accuracy |
Download models from: https://alphacephei.com/vosk/models
Example Workflow
- User sends a voice message via WeChat/T@elegrimm
- OpenClaw receives the audio file
- Run:
python3 transcribe.py /path/to/voice.ogg - Return transcribed text to user
Troubleshooting
- No model found: Download a model to
~/.vosk/models/ - ffmpeg not found: Install via
brew install ffmpegorapt install ffmpeg - Poor accuracy: Try a larger model for better results
Notes
- Works completely offline after model download
- Supports multiple languages (download appropriate model)
- Audio is converted to 16kHz mono WAV for processing
相关推荐
专题
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
最新数据
相关文章
Taiwan MD:面向台湾的 AI 原生开放知识库 - Openclaw Skills
自学习与迭代演进:AI Agent 成长框架 - Openclaw Skills
HIPC Config Manager: 安全的 API 凭据处理器 - Openclaw Skills
Outline 知识库:用于文档的 AI agent 集成 - Openclaw Skills
MongoDB Slowlog Analysis: 优化数据库性能 - Openclaw Skills
Crazyrouter 翻译:AI 驱动的多模型翻译 - Openclaw Skills
sqlx Code Review:优化 Rust 数据库查询 - Openclaw Skills
Lead Scoring:AI 驱动的 B2B 转化预测 - Openclaw Skills
中国服装采购:制造与供应链指南 - Openclaw Skills
GIS Job Monitor:自动化测绘地理信息职业追踪 - Openclaw Skills
AI精选
