音频技能:处理、转换与转录 - Openclaw Skills
作者:互联网
2026-03-26
什么是 音频处理与转录?
音频技能是为使用 Openclaw Skills 管理复杂音频工作流的用户设计的专业级扩展。它提供了一个强大的音频文件操作界面,允许智能体执行高质量转换、消除背景噪音,并确保音频符合各种流媒体平台的严格响度标准。通过集成 FFmpeg 和 SoX 等核心实用程序,它为 AI 智能体环境带来了录音室级别的处理能力。
对于需要自动化音频制作中乏味部分的开发人员和创作者来说,这项技能特别有价值。从简单的格式更改到高级的音轨分离和本地转录,Openclaw Skills 库的这一补充确保了您的智能体能够精确且技术准确地处理任何音频任务。
下载入口:https://github.com/openclaw/skills/tree/main/skills/ivangdavila/audio
安装与下载
1. ClawHub CLI
从源直接安装技能的最快方式。
npx clawhub@latest install audio
2. 手动安装
将技能文件夹复制到以下位置之一
全局模式~/.openclaw/skills/
工作区
/skills/
优先级:工作区 > 本地 > 内置
3. 提示词安装
将此提示词复制到 OpenClaw 即可自动安装。
请帮我使用 Clawhub 安装 audio。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。
音频处理与转录 应用场景
- 通过应用 Spotify 或 Apple Podcasts 的响度归一化来自动化播客制作。
- 将高分辨率母带文件转换为压缩的网页就绪格式,如 MP3 或 OGG。
- 使用 Whisper 集成从音频生成本地化字幕或文本转录。
- 从视频文件中提取音频轨道以创建独立素材。
- 批量处理音频文件以调整播放速度或应用降噪滤镜。
- 智能体识别特定目标,如目标格式、响度要求或转录需求。
- 使用 ffprobe 分析源文件以确定其编码器、采样率和声道配置。
- 根据用户的特定请求或选择的工作流模板,使用 FFmpeg 或 SoX 应用转换逻辑。
- 验证生成的输出以确保其能够正确播放并符合所需的技术规范。
- 最终处理的文件将交付给用户或移动到指定的输出目录。
音频处理与转录 配置指南
要在您的 Openclaw Skills 设置中开始使用此技能,您必须安装所需的系统二进制文件。
# 安装核心音频处理工具
sudo apt install ffmpeg ffprobe
# 可选:安装 SoX 以使用高级降噪滤镜
sudo apt install sox
# 可选:安装 Whisper 以支持本地转录
pip install openai-whisper
音频处理与转录 数据架构与分类体系
该技能基于技术元数据和行业标准管理音频数据。
| 组件 | 描述 |
|---|---|
| 编解码器 | 支持 libmp3lame、AAC、FLAC、WAV 和 Opus |
| 响度 | 标准包括 -16 LUFS (Spotify) 和 -19 LUFS (Apple) |
| 元数据 | 通过 ffprobe 提取采样率、比特率和时长 |
| 音轨分离 | 通过 Demucs 组织分离的轨道(人声、贝斯、鼓) |
name: Audio
slug: audio
version: 1.0.1
description: Process, enhance, and convert audio files with noise removal, normalization, format conversion, transcription, and podcast workflows.
changelog: Declare required binaries (ffmpeg, ffprobe), add requirements section with optional deps, add explicit scope
metadata: {"clawdbot":{"emoji":"??","requires":{"bins":["ffmpeg","ffprobe"]},"os":["linux","darwin","win32"]}}
Requirements
Required:
ffmpeg/ffprobe— core audio processing
Optional (for advanced features):
sox— additional noise reductionwhisper— local transcription (or use API)demucs— stem separation
Quick Reference
| Situation | Load |
|---|---|
| FFmpeg commands by task | commands.md |
| Loudness standards by platform | loudness.md |
| Podcast production workflow | podcast.md |
| Transcription workflow | transcription.md |
Core Capabilities
| Task | Method |
|---|---|
| Convert formats | FFmpeg (-acodec) |
| Remove noise | FFmpeg filters or SoX |
| Normalize loudness | ffmpeg-normalize or -af loudnorm |
| Transcribe | Whisper → text, SRT, VTT |
| Separate stems | Demucs (vocals, drums, bass, other) |
Execution Pattern
- Clarify goal — What format? What loudness? What platform?
- Analyze source —
ffprobefor codec, sample rate, channels, duration - Process — FFmpeg/SoX for transformation
- Verify — Check output plays, meets specs, sounds correct
- Deliver — Provide file to user
Common Requests → Actions
| User says | Agent does |
|---|---|
| "Convert to MP3" | -acodec libmp3lame -q:a 2 |
| "Remove background noise" | Apply highpass/lowpass or dedicated denoiser |
| "Normalize for podcast" | -af loudnorm=I=-16:TP=-1.5:LRA=11 |
| "Transcribe this" | Whisper → output SRT/VTT/TXT |
| "Extract audio from video" | -vn -acodec copy or re-encode |
| "Make it smaller" | Lower bitrate: -b:a 128k or -b:a 96k |
| "Speed up 1.5x" | -af atempo=1.5 |
Format Quick Reference
| Format | Use Case | Quality |
|---|---|---|
| WAV | Master, editing | Lossless |
| FLAC | Archive, audiophile | Lossless compressed |
| MP3 | Universal sharing | Lossy, 128-320 kbps |
| AAC/M4A | Apple, podcasts | Lossy, efficient |
| OGG/Opus | WhatsApp, Discord | Lossy, very efficient |
Quality Defaults
- Podcast: -16 LUFS (Spotify), -19 LUFS (Apple)
- Music: -14 LUFS (Spotify), -16 LUFS (Apple Music)
- MP3 quality: VBR
-q:a 2(~190 kbps) or CBR-b:a 192k - Sample rate: 44.1kHz for music, 48kHz for video sync
Scope
This skill:
- Processes audio files user explicitly provides
- Runs FFmpeg commands on user request
- Does NOT access cloud services without user knowing
- Does NOT store files persistently (user manages their files)
相关推荐
专题
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
最新数据
相关文章
国产 AI 视频生成器:Wan2.6 与可灵集成 - Openclaw Skills
Sonos Announce:智能音频状态恢复 - Openclaw Skills
Hypha Payment:P2P 代理协作与 USDT 结算 - Openclaw Skills
Cashu Emoji:隐藏代币编解码 - Openclaw Skills
技术 SEO 精通:审计、修复与监控 - Openclaw Skills
Teamo Strategy:高级认知任务拆解 - Openclaw Skills
visual-concept:从技术到视觉创意的综合 - Openclaw Skills
Aavegotchi 引导:在 Base 网络上自动化获取 Alchemica - Openclaw Skills
读取 Intercom 对话:提取支持数据 - Openclaw Skills
DocuClaw: 本地 AI 文档智能与归档 - Openclaw 技能
AI精选
