语音转录技能:本地私密语音转文字 - Openclaw Skills

作者:互联网

2026-03-29

AI教程

什么是 语音转录技能?

语音转录技能提供了一种强大的机制,可直接在本地机器上将录音和语音消息转换为准确的文本。通过利用 Faster Whisper 引擎,它确保您的数据永远不会离开您的基础设施,对于需要可靠转录且不依赖外部云 API 的隐私导向型开发人员和用户来说,这是理想的选择。此技能无缝集成到 Openclaw Skills 生态系统中,以语音识别能力增强自动化工作流。

下载入口:https://github.com/openclaw/skills/tree/main/skills/kalmuraee/faster-whisper-transcribe

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install faster-whisper-transcribe

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级:工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 faster-whisper-transcribe。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。

语音转录技能 应用场景

  • 将来自即时通讯应用的入站语音消息转换为可搜索的文本。
  • 转录存储在媒体目录中的会议记录或个人语音备忘录。
  • 在 Openclaw Skills 框架内为 AI 代理自动处理基于语音的触发器。
  • 隐私优先的转录场景,其中数据敏感性禁止使用云端 STT 服务。
语音转录技能 工作原理
  1. 用户通过命令行界面提供音频文件(如 .ogg, .mp3)的路径。
  2. 技能根据指定的模型大小(tiny, base, small 或 medium)在本地初始化 Faster Whisper 模型。
  3. 音频通过神经网络处理,以识别语音模式并将其转换为文本。
  4. 生成的转录内容作为文本输出返回,以便进一步处理或存储。

语音转录技能 配置指南

要安装此技能所需的依赖项,请运行以下命令:

pip3 install --break-system-packages faster-whisper

在 Openclaw Skills 中运行此工具之前,请确保您的系统上安装了必要的音频库,以处理各种媒体格式。

语音转录技能 数据架构与分类体系

此技能处理音频文件并生成基于文本的元数据。下表描述了 Openclaw Skills 使用的主要数据结构:

属性 描述
输入路径 音频源的文件系统路径。
转录文本 从音频中提取的原始文本字符串。
模型级别 使用的 Whisper 模型(tiny, base, small, medium)。

文件通常来源于 ~/.openclaw/media/inbound/ 目录。

Voice Transcription Skill

Transcribes voice messages using Faster Whisper (local, privacy-first).

Requirements

pip3 install --break-system-packages faster-whisper

Usage

# Transcribe a voice file
voice-transcribe /path/to/audio.ogg

# Or use with media path
voice-transcribe ~/.openclaw/media/inbound/file_xxx.ogg

Models

  • tiny - Fastest, lowest accuracy (default)
  • base - Balanced
  • small - Better accuracy
  • medium - High accuracy (requires more RAM)

Output

Returns transcribed text from voice messages.