AssemblyAI 转录器：具备说话人识别功能的 AI 音频转录

AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

AssemblyAI 转录器：具备说话人识别功能的 AI 音频转录 - Openclaw Skills

作者：互联网

2026-03-25

AI快讯

什么是 AssemblyAI 转录器？

AssemblyAI 转录器是 Openclaw Skills 生态系统中的一个专门集成，旨在将口头音频转换为高度准确、结构化的文本。通过利用先进的深度学习模型，该技能允许用户轻松处理从简单的语音备忘录到复杂的多发言人会议的音频文件。

该工具超越了基础转录，提供超过 100 种语言的自动语言检测和精确的说话人识别（Diarization）。这确保了每份转录稿都能清晰地识别出谁在什么时候说了什么，使其成为开发者使用 Openclaw Skills 构建复杂语音分析代理的重要组件。

下载入口:https://github.com/openclaw/skills/tree/main/skills/xenofex7/assemblyai-transcriber

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install assemblyai-transcriber

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级：工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 assemblyai-transcriber。如果尚未安装 Clawhub，请先安装（npm i -g clawhub）。

AssemblyAI 转录器应用场景

转录企业会议和访谈，创建可搜索的、标注说话人的存档。
自动为播客和视频内容生成字幕和节目笔记。
将语音备忘录转换为结构化文本，以便与个人知识管理系统集成。
处理法律或医疗录音，其中精确的时间戳和说话人识别是强制性的。

AssemblyAI 转录器工作原理

该技能通过本地文件路径或远程 URL 接收音频输入。
它使用您唯一的 API 凭据将音频数据安全地传输到 AssemblyAI 处理引擎。
AI 引擎分析音频以检测主要语言并区分不同的说话人声音。
口头词汇被转换为文本并映射到特定的时间间隔（时间戳）。
该技能返回格式化的 Markdown 转录稿或原始 JSON 有效负载，供 Openclaw Skills 进行进一步自动化处理。

AssemblyAI 转录器配置指南

要在您的 Openclaw Skills 环境中部署此技能，您必须首先从 AssemblyAI 平台获取 API 密钥。

在 AssemblyAI 注册以获取您的 API 密钥。
在终端中将密钥导出为环境变量：

export ASSEMBLYAI_API_KEY="your-api-key"

或者，将配置保存在 ~/.assemblyai_config.json 的 JSON 文件中：

{
  "api_key": "YOUR_API_KEY"
}

AssemblyAI 转录器数据架构与分类体系

AssemblyAI 转录器生成结构化输出，允许 Openclaw Skills 有效地解析对话数据。

字段	类型	描述
语言	字符串	检测到的语言的 ISO 代码（例如 EN, FR, ES）
时长	数字	处理后音频的总长度（秒）
说话人标签	字符串	每个参与者的唯一标识符（例如 Speaker A）
时间戳	字符串	话语的准确开始时间，格式为 [MM:SS]
文本	字符串	语音片段的转录内容

name: assemblyai-transcriber
description: "Transcribe audio files with speaker diarization (who speaks when). Supports 100+ languages, automatic language detection, and timestamps. Use for meetings, interviews, podcasts, or voice messages. Requires AssemblyAI API key."
metadata:
  openclaw:
    requires:
      env:
        - ASSEMBLYAI_API_KEY

AssemblyAI Transcriber ???

Transcribe audio files with speaker diarization (who speaks when).

Features

? Transcription in 100+ languages
? Speaker diarization (Speaker A, B, C...)
? Timestamps per utterance
? Automatic language detection
? Supports MP3, WAV, M4A, FLAC, OGG, WEBM

Setup

Create AssemblyAI account: https://www.assemblyai.com/
Get API key (free tier: 100 min/month)
Set environment variable:

export ASSEMBLYAI_API_KEY="your-api-key"

Or save to config file:

// ~/.assemblyai_config.json
{
  "api_key": "YOUR_API_KEY"
}

Usage

Transcribe local audio

python3 scripts/transcribe.py /path/to/recording.mp3

Transcribe from URL

python3 scripts/transcribe.py https://example.com/meeting.mp3

Options

python3 scripts/transcribe.py audio.mp3 --no-diarization  # Skip speaker labels
python3 scripts/transcribe.py audio.mp3 --json            # Raw JSON output

Output Format

## Transcript

*Language: EN*
*Duration: 05:32*

**Speaker A** [00:00]: Hello everyone, welcome to the meeting.
**Speaker B** [00:03]: Thanks! Happy to be here.
**Speaker A** [00:06]: Let's start with the first item...