AssemblyAI 转录器:具备说话人识别功能的 AI 音频转录 - Openclaw Skills
作者:互联网
2026-03-25
什么是 AssemblyAI 转录器?
AssemblyAI 转录器是 Openclaw Skills 生态系统中的一个专门集成,旨在将口头音频转换为高度准确、结构化的文本。通过利用先进的深度学习模型,该技能允许用户轻松处理从简单的语音备忘录到复杂的多发言人会议的音频文件。
该工具超越了基础转录,提供超过 100 种语言的自动语言检测和精确的说话人识别(Diarization)。这确保了每份转录稿都能清晰地识别出谁在什么时候说了什么,使其成为开发者使用 Openclaw Skills 构建复杂语音分析代理的重要组件。
下载入口:https://github.com/openclaw/skills/tree/main/skills/xenofex7/assemblyai-transcriber
安装与下载
1. ClawHub CLI
从源直接安装技能的最快方式。
npx clawhub@latest install assemblyai-transcriber
2. 手动安装
将技能文件夹复制到以下位置之一
全局模式~/.openclaw/skills/
工作区
/skills/
优先级:工作区 > 本地 > 内置
3. 提示词安装
将此提示词复制到 OpenClaw 即可自动安装。
请帮我使用 Clawhub 安装 assemblyai-transcriber。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。
AssemblyAI 转录器 应用场景
- 转录企业会议和访谈,创建可搜索的、标注说话人的存档。
- 自动为播客和视频内容生成字幕和节目笔记。
- 将语音备忘录转换为结构化文本,以便与个人知识管理系统集成。
- 处理法律或医疗录音,其中精确的时间戳和说话人识别是强制性的。
- 该技能通过本地文件路径或远程 URL 接收音频输入。
- 它使用您唯一的 API 凭据将音频数据安全地传输到 AssemblyAI 处理引擎。
- AI 引擎分析音频以检测主要语言并区分不同的说话人声音。
- 口头词汇被转换为文本并映射到特定的时间间隔(时间戳)。
- 该技能返回格式化的 Markdown 转录稿或原始 JSON 有效负载,供 Openclaw Skills 进行进一步自动化处理。
AssemblyAI 转录器 配置指南
要在您的 Openclaw Skills 环境中部署此技能,您必须首先从 AssemblyAI 平台获取 API 密钥。
- 在 AssemblyAI 注册以获取您的 API 密钥。
- 在终端中将密钥导出为环境变量:
export ASSEMBLYAI_API_KEY="your-api-key"
- 或者,将配置保存在
~/.assemblyai_config.json的 JSON 文件中:
{
"api_key": "YOUR_API_KEY"
}
AssemblyAI 转录器 数据架构与分类体系
AssemblyAI 转录器生成结构化输出,允许 Openclaw Skills 有效地解析对话数据。
| 字段 | 类型 | 描述 |
|---|---|---|
| 语言 | 字符串 | 检测到的语言的 ISO 代码(例如 EN, FR, ES) |
| 时长 | 数字 | 处理后音频的总长度(秒) |
| 说话人标签 | 字符串 | 每个参与者的唯一标识符(例如 Speaker A) |
| 时间戳 | 字符串 | 话语的准确开始时间,格式为 [MM:SS] |
| 文本 | 字符串 | 语音片段的转录内容 |
name: assemblyai-transcriber
description: "Transcribe audio files with speaker diarization (who speaks when). Supports 100+ languages, automatic language detection, and timestamps. Use for meetings, interviews, podcasts, or voice messages. Requires AssemblyAI API key."
metadata:
openclaw:
requires:
env:
- ASSEMBLYAI_API_KEY
AssemblyAI Transcriber ???
Transcribe audio files with speaker diarization (who speaks when).
Features
- ? Transcription in 100+ languages
- ? Speaker diarization (Speaker A, B, C...)
- ? Timestamps per utterance
- ? Automatic language detection
- ? Supports MP3, WAV, M4A, FLAC, OGG, WEBM
Setup
- Create AssemblyAI account: https://www.assemblyai.com/
- Get API key (free tier: 100 min/month)
- Set environment variable:
export ASSEMBLYAI_API_KEY="your-api-key"
Or save to config file:
// ~/.assemblyai_config.json
{
"api_key": "YOUR_API_KEY"
}
Usage
Transcribe local audio
python3 scripts/transcribe.py /path/to/recording.mp3
Transcribe from URL
python3 scripts/transcribe.py https://example.com/meeting.mp3
Options
python3 scripts/transcribe.py audio.mp3 --no-diarization # Skip speaker labels
python3 scripts/transcribe.py audio.mp3 --json # Raw JSON output
Output Format
## Transcript
*Language: EN*
*Duration: 05:32*
**Speaker A** [00:00]: Hello everyone, welcome to the meeting.
**Speaker B** [00:03]: Thanks! Happy to be here.
**Speaker A** [00:06]: Let's start with the first item...
Pricing
- Free Tier: 100 minutes/month free
- After: ~$0.01/minute
Tips
- For best speaker diarization: clear speaker changes, minimal overlap
- Background noise is filtered well
- Multi-language auto-detection works reliably
Author: xenofex7 | Version: 1.1.0
相关推荐
专题
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
最新数据
相关文章
Elasticsearch93新增bfloat16向量支持
解析OceanBase生态工具链之OAT_obd_OCP_obshell
贝叶斯不确定性引导的早停框架ESTune与OceanBase校企联合研究
杈炬ⅵ&浜哄ぇ閲戜粨閫傞厤瀹炴垬锛歋eaTunnel鍦ㄤ俊鍒涙暟鎹钩鍙颁腑鐨勫簲鐢ㄤ笌韪╁潙鎬荤粨
2026年1月中国数据库流行度排行榜:OB连冠领跑贺新元PolarDB跃居次席显锐气
社区译文解析FUD与真相MySQL是否真的被弃用了
英伟达重新规划AI推理加速布局 暂停Rubin CPU转攻Groq LPU
gpress v1.2.2 全新上线 Web3内容平台迎来更新
CMake 4.3.0 正式推出
短剧采用AI换脸技术使角色酷似明星 制作方与播出方构成侵权
AI精选
