语音转文本：离线语音识别 - Openclaw Skills-脚本在线

AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

语音转文本：离线语音识别 - Openclaw Skills

作者：互联网

2026-04-18

AI教程

什么是语音转文本？

Openclaw Skills 的语音转文本技能提供了一种强大的解决方案，可以在不依赖外部云 API 的情况下将口语转换为书面文本。通过利用 Vosk 工具包和 ffmpeg，该技能允许 AI 代理在本地处理语音消息和音频文件，确保数据隐私并降低延迟。对于优先考虑安全性以及在网络受限环境中需要可靠转录功能的用户来说，这是一个必不可少的组件。

该技能将原始音频数据转化为可操作的文本，从而使大语言模型 (LLM) 或其他自动化工作流能够进行进一步处理。它弥合了语音通信与基于文本的 AI 分析之间的差距，使 Openclaw Skills 在处理多样化媒体输入方面更加多才多艺。

下载入口:https://github.com/openclaw/skills/tree/main/skills/vae999/voice-to-text

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install voice-to-text

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级：工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 voice-to-text。如果尚未安装 Clawhub，请先安装（npm i -g clawhub）。

语音转文本应用场景

转录来自 T@elegrimm、WhatsApp 或微信等即时通讯应用的语音消息。
将会议录音或语音备忘录转换为可搜索的文本文件，用于个人知识管理。
使 AI 代理能够从各种音频文件格式中听取并处理语音指令。
在隐私至上的离线或物理隔离环境中处理敏感音频数据。

语音转文本工作原理

技能接收来自用户或集成平台的音频文件路径或语音消息。
调用 ffmpeg 将音频输入规范化为 16kHz 单声道 WAV 格式，这是识别引擎所需的标准。
技能从本地目录加载指定的 Vosk 语言模型。
处理后的音频流通过 Vosk 工具包识别语音模式并生成文本转录。
最终的文本输出返回给用户或传递给代理工作流的下一阶段。

语音转文本配置指南

要开始使用 Openclaw Skills 的此转录工具，请按照以下安装步骤操作：

# 安装核心依赖
# 对于 macOS
brew install ffmpeg
pip install vosk

# 对于 Linux
apt-get install ffmpeg
pip install vosk

# 设置并下载英语模型
mkdir -p ~/.vosk/models && cd ~/.vosk/models
curl -LO https://alphacephei.com/vosk/models/vosk-model-small-en-us-0.15.zip
unzip vosk-model-small-en-us-0.15.zip

语音转文本数据架构与分类体系

组件	描述
支持格式	MP3, WAV, M4A, OGG, FLAC, AAC, WEBM
模型存储	默认位于 `~/.vosk/models/`
环境变量	`VOSK_MODEL_PATH` 可用于在不同语言模型之间切换
转录输出	纯文本 UTF-8 字符串

name: voice-to-text
version: 1.0.0
description: Convert voice messages and audio files to text using Vosk offline speech recognition. Use when a user sends a voice message, audio file, or asks to transcribe speech to text.
homepage: https://alphacephei.com/vosk/
metadata:
  {
    "openclaw":
      {
        "emoji": "??",
        "os": ["darwin", "linux"],
        "requires": { "bins": ["ffmpeg"], "python": ["vosk"] },
        "install":
          [
            {
              "id": "brew-ffmpeg",
              "kind": "brew",
              "formula": "ffmpeg",
              "bins": ["ffmpeg"],
              "label": "Install ffmpeg via Homebrew",
            },
            {
              "id": "pip-vosk",
              "kind": "pip",
              "package": "vosk",
              "label": "Install Vosk via pip",
            },
          ],
      },
  }

Voice to Text

Convert voice messages and audio files to text using Vosk, an offline speech recognition toolkit.

Setup

Install dependencies:

# macOS
brew install ffmpeg
pip install vosk

# Linux
apt-get install ffmpeg
pip install vosk

Download a Vosk model:

mkdir -p ~/.vosk/models && cd ~/.vosk/models

# Chinese (small, fast)
curl -LO https://alphacephei.com/vosk/models/vosk-model-small-cn-0.22.zip
unzip vosk-model-small-cn-0.22.zip

# English (small)
curl -LO https://alphacephei.com/vosk/models/vosk-model-small-en-us-0.15.zip
unzip vosk-model-small-en-us-0.15.zip

Usage

When the user provides a voice message or audio file path, run the transcription:

python3 ~/skills/voice-to-text/transcribe.py ""

For specific model selection, set the environment variable:

VOSK_MODEL_PATH=~/.vosk/models/vosk-model-cn-0.22 python3 ~/skills/voice-to-text/transcribe.py ""

Supported Audio Formats

MP3, WAV, M4A, OGG, FLAC, AAC, WEBM
Voice messages from WeChat, T@elegrimm, WhatsApp, etc.

Available Models

Model	Language	Size	Notes
vosk-model-small-cn-0.22	Chinese	42M	Fast, good accuracy
vosk-model-cn-0.22	Chinese	1.3G	High accuracy
vosk-model-small-en-us-0.15	English	40M	Fast, good accuracy
vosk-model-en-us-0.22	English	1.8G	High accuracy

Download models from: https://alphacephei.com/vosk/models

Example Workflow

User sends a voice message via WeChat/T@elegrimm
OpenClaw receives the audio file
Run: python3 transcribe.py /path/to/voice.ogg
Return transcribed text to user

Troubleshooting

No model found: Download a model to ~/.vosk/models/
ffmpeg not found: Install via brew install ffmpeg or apt install ffmpeg
Poor accuracy: Try a larger model for better results

Notes

Works completely offline after model download
Supports multiple languages (download appropriate model)
Audio is converted to 16kHz mono WAV for processing

上一篇：SEO 审计：网页分析与优化 - Openclaw Skills 下一篇：ai-app-lab: 火山引擎 AI 应用参考架构 - Openclaw 技能

相关推荐

【新手零难度操作】OpenClaw 2.6.4 安装误区规避与快速使用指南（包含最新版安装包） OpenClaw（小龙虾）是开源本地AI智能体工具，支持Windows一键部署（5分钟搞定），无需代码与复杂配置。具备本地运行、数据安全、零门槛操作、开箱即用等优势，可自动完成文件整理、数据提取、浏览器操控等办公自动化任务。

2026-04-18

立即查看

Qwen3.6 正式发布！阿里云百炼同步开启“AI大模型节省计划”超值优惠阿里云发布千问Qwen3.6系列大模型，大模型官网：https://t.aliyun.com/U/JbblVp 实现编程、智能体（Agent）及多模态能力的范式跃迁：代码生成与调试更精准，原生支持LangChain等框架，工具调用更稳定，图文识别与推理全面升级。Qwen3.6-Flash轻量高效，开发体验优化。同步推出百炼「全模型通享」限时特惠，新客首月立减最高500元。

2026-04-18

立即查看

OpenClaw 2.6.4 可视化部署打造个人 AI 数字员工（包含最新版安装包）本教程详解Windows一键部署OpenClaw 2.6.4（本地AI智能体），5分钟完成安装，无需编程与环境配置。支持自然语言操控电脑、自动化办公、文件处理等，数据全本地运行，保障隐私安全。

2026-04-18

立即查看

【小白友好！】OpenClaw 2.6.4 本地 AI 智能体快速搭建教程（内有安装包） OpenClaw（小龙虾）2.6.4 是专为 Windows 设计的本地 AI 智能体工具，支持自然语言指令、自动化办公与文件处理。无需命令行，5 分钟一键安装，零代码、可视化操作，数据全程本地运行更安全。

2026-04-18

立即查看

专题

#数据可视化

数据可视化（Data Visu

+ 收藏

#自然语言处理

自然语言处理（Natural

+ 收藏

#Excel公式

Excel公式就是：用函数 +

+ 收藏

#Excel技巧

Excel是日常生活中必不可

+ 收藏

#蛋仔派对

蛋仔派对最新官方活动、关卡速

+ 收藏

#人工智能

人工智能（AI），简单说，就

+ 收藏

语音转文本：离线语音识别 - Openclaw Skills

什么是 语音转文本？

安装与下载

1. ClawHub CLI

2. 手动安装

3. 提示词安装

语音转文本 应用场景

语音转文本 配置指南

语音转文本 数据架构与分类体系

Voice to Text

Setup

Usage

Supported Audio Formats

Available Models

Example Workflow

Troubleshooting

Notes

什么是语音转文本？

语音转文本应用场景

语音转文本配置指南

语音转文本数据架构与分类体系