语音转文本:离线语音识别 - Openclaw Skills

作者:互联网

2026-04-18

AI教程

什么是 语音转文本?

Openclaw Skills 的语音转文本技能提供了一种强大的解决方案,可以在不依赖外部云 API 的情况下将口语转换为书面文本。通过利用 Vosk 工具包和 ffmpeg,该技能允许 AI 代理在本地处理语音消息和音频文件,确保数据隐私并降低延迟。对于优先考虑安全性以及在网络受限环境中需要可靠转录功能的用户来说,这是一个必不可少的组件。

该技能将原始音频数据转化为可操作的文本,从而使大语言模型 (LLM) 或其他自动化工作流能够进行进一步处理。它弥合了语音通信与基于文本的 AI 分析之间的差距,使 Openclaw Skills 在处理多样化媒体输入方面更加多才多艺。

下载入口:https://github.com/openclaw/skills/tree/main/skills/vae999/voice-to-text

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install voice-to-text

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级:工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 voice-to-text。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。

语音转文本 应用场景

  • 转录来自 T@elegrimm、WhatsApp 或微信等即时通讯应用的语音消息。
  • 将会议录音或语音备忘录转换为可搜索的文本文件,用于个人知识管理。
  • 使 AI 代理能够从各种音频文件格式中听取并处理语音指令。
  • 在隐私至上的离线或物理隔离环境中处理敏感音频数据。
语音转文本 工作原理
  1. 技能接收来自用户或集成平台的音频文件路径或语音消息。
  2. 调用 ffmpeg 将音频输入规范化为 16kHz 单声道 WAV 格式,这是识别引擎所需的标准。
  3. 技能从本地目录加载指定的 Vosk 语言模型。
  4. 处理后的音频流通过 Vosk 工具包识别语音模式并生成文本转录。
  5. 最终的文本输出返回给用户或传递给代理工作流的下一阶段。

语音转文本 配置指南

要开始使用 Openclaw Skills 的此转录工具,请按照以下安装步骤操作:

# 安装核心依赖
# 对于 macOS
brew install ffmpeg
pip install vosk

# 对于 Linux
apt-get install ffmpeg
pip install vosk

# 设置并下载英语模型
mkdir -p ~/.vosk/models && cd ~/.vosk/models
curl -LO https://alphacephei.com/vosk/models/vosk-model-small-en-us-0.15.zip
unzip vosk-model-small-en-us-0.15.zip

语音转文本 数据架构与分类体系

组件 描述
支持格式 MP3, WAV, M4A, OGG, FLAC, AAC, WEBM
模型存储 默认位于 ~/.vosk/models/
环境变量 VOSK_MODEL_PATH 可用于在不同语言模型之间切换
转录输出 纯文本 UTF-8 字符串
name: voice-to-text
version: 1.0.0
description: Convert voice messages and audio files to text using Vosk offline speech recognition. Use when a user sends a voice message, audio file, or asks to transcribe speech to text.
homepage: https://alphacephei.com/vosk/
metadata:
  {
    "openclaw":
      {
        "emoji": "??",
        "os": ["darwin", "linux"],
        "requires": { "bins": ["ffmpeg"], "python": ["vosk"] },
        "install":
          [
            {
              "id": "brew-ffmpeg",
              "kind": "brew",
              "formula": "ffmpeg",
              "bins": ["ffmpeg"],
              "label": "Install ffmpeg via Homebrew",
            },
            {
              "id": "pip-vosk",
              "kind": "pip",
              "package": "vosk",
              "label": "Install Vosk via pip",
            },
          ],
      },
  }

Voice to Text

Convert voice messages and audio files to text using Vosk, an offline speech recognition toolkit.

Setup

  1. Install dependencies:

    # macOS
    brew install ffmpeg
    pip install vosk
    
    # Linux
    apt-get install ffmpeg
    pip install vosk
    
  2. Download a Vosk model:

    mkdir -p ~/.vosk/models && cd ~/.vosk/models
    
    # Chinese (small, fast)
    curl -LO https://alphacephei.com/vosk/models/vosk-model-small-cn-0.22.zip
    unzip vosk-model-small-cn-0.22.zip
    
    # English (small)
    curl -LO https://alphacephei.com/vosk/models/vosk-model-small-en-us-0.15.zip
    unzip vosk-model-small-en-us-0.15.zip
    

Usage

When the user provides a voice message or audio file path, run the transcription:

python3 ~/skills/voice-to-text/transcribe.py ""

For specific model selection, set the environment variable:

VOSK_MODEL_PATH=~/.vosk/models/vosk-model-cn-0.22 python3 ~/skills/voice-to-text/transcribe.py ""

Supported Audio Formats

  • MP3, WAV, M4A, OGG, FLAC, AAC, WEBM
  • Voice messages from WeChat, T@elegrimm, WhatsApp, etc.

Available Models

Model Language Size Notes
vosk-model-small-cn-0.22 Chinese 42M Fast, good accuracy
vosk-model-cn-0.22 Chinese 1.3G High accuracy
vosk-model-small-en-us-0.15 English 40M Fast, good accuracy
vosk-model-en-us-0.22 English 1.8G High accuracy

Download models from: https://alphacephei.com/vosk/models

Example Workflow

  1. User sends a voice message via WeChat/T@elegrimm
  2. OpenClaw receives the audio file
  3. Run: python3 transcribe.py /path/to/voice.ogg
  4. Return transcribed text to user

Troubleshooting

  • No model found: Download a model to ~/.vosk/models/
  • ffmpeg not found: Install via brew install ffmpeg or apt install ffmpeg
  • Poor accuracy: Try a larger model for better results

Notes

  • Works completely offline after model download
  • Supports multiple languages (download appropriate model)
  • Audio is converted to 16kHz mono WAV for processing

相关推荐