音频技能:处理、转换与转录 - Openclaw Skills

作者:互联网

2026-03-26

AI教程

什么是 音频处理与转录?

音频技能是为使用 Openclaw Skills 管理复杂音频工作流的用户设计的专业级扩展。它提供了一个强大的音频文件操作界面,允许智能体执行高质量转换、消除背景噪音,并确保音频符合各种流媒体平台的严格响度标准。通过集成 FFmpeg 和 SoX 等核心实用程序,它为 AI 智能体环境带来了录音室级别的处理能力。

对于需要自动化音频制作中乏味部分的开发人员和创作者来说,这项技能特别有价值。从简单的格式更改到高级的音轨分离和本地转录,Openclaw Skills 库的这一补充确保了您的智能体能够精确且技术准确地处理任何音频任务。

下载入口:https://github.com/openclaw/skills/tree/main/skills/ivangdavila/audio

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install audio

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级:工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 audio。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。

音频处理与转录 应用场景

  • 通过应用 Spotify 或 Apple Podcasts 的响度归一化来自动化播客制作。
  • 将高分辨率母带文件转换为压缩的网页就绪格式,如 MP3 或 OGG。
  • 使用 Whisper 集成从音频生成本地化字幕或文本转录。
  • 从视频文件中提取音频轨道以创建独立素材。
  • 批量处理音频文件以调整播放速度或应用降噪滤镜。
音频处理与转录 工作原理
  1. 智能体识别特定目标,如目标格式、响度要求或转录需求。
  2. 使用 ffprobe 分析源文件以确定其编码器、采样率和声道配置。
  3. 根据用户的特定请求或选择的工作流模板,使用 FFmpeg 或 SoX 应用转换逻辑。
  4. 验证生成的输出以确保其能够正确播放并符合所需的技术规范。
  5. 最终处理的文件将交付给用户或移动到指定的输出目录。

音频处理与转录 配置指南

要在您的 Openclaw Skills 设置中开始使用此技能,您必须安装所需的系统二进制文件。

# 安装核心音频处理工具
sudo apt install ffmpeg ffprobe

# 可选:安装 SoX 以使用高级降噪滤镜
sudo apt install sox

# 可选:安装 Whisper 以支持本地转录
pip install openai-whisper

音频处理与转录 数据架构与分类体系

该技能基于技术元数据和行业标准管理音频数据。

组件 描述
编解码器 支持 libmp3lame、AAC、FLAC、WAV 和 Opus
响度 标准包括 -16 LUFS (Spotify) 和 -19 LUFS (Apple)
元数据 通过 ffprobe 提取采样率、比特率和时长
音轨分离 通过 Demucs 组织分离的轨道(人声、贝斯、鼓)
name: Audio
slug: audio
version: 1.0.1
description: Process, enhance, and convert audio files with noise removal, normalization, format conversion, transcription, and podcast workflows.
changelog: Declare required binaries (ffmpeg, ffprobe), add requirements section with optional deps, add explicit scope
metadata: {"clawdbot":{"emoji":"??","requires":{"bins":["ffmpeg","ffprobe"]},"os":["linux","darwin","win32"]}}

Requirements

Required:

  • ffmpeg / ffprobe — core audio processing

Optional (for advanced features):

  • sox — additional noise reduction
  • whisper — local transcription (or use API)
  • demucs — stem separation

Quick Reference

Situation Load
FFmpeg commands by task commands.md
Loudness standards by platform loudness.md
Podcast production workflow podcast.md
Transcription workflow transcription.md

Core Capabilities

Task Method
Convert formats FFmpeg (-acodec)
Remove noise FFmpeg filters or SoX
Normalize loudness ffmpeg-normalize or -af loudnorm
Transcribe Whisper → text, SRT, VTT
Separate stems Demucs (vocals, drums, bass, other)

Execution Pattern

  1. Clarify goal — What format? What loudness? What platform?
  2. Analyze sourceffprobe for codec, sample rate, channels, duration
  3. Process — FFmpeg/SoX for transformation
  4. Verify — Check output plays, meets specs, sounds correct
  5. Deliver — Provide file to user

Common Requests → Actions

User says Agent does
"Convert to MP3" -acodec libmp3lame -q:a 2
"Remove background noise" Apply highpass/lowpass or dedicated denoiser
"Normalize for podcast" -af loudnorm=I=-16:TP=-1.5:LRA=11
"Transcribe this" Whisper → output SRT/VTT/TXT
"Extract audio from video" -vn -acodec copy or re-encode
"Make it smaller" Lower bitrate: -b:a 128k or -b:a 96k
"Speed up 1.5x" -af atempo=1.5

Format Quick Reference

Format Use Case Quality
WAV Master, editing Lossless
FLAC Archive, audiophile Lossless compressed
MP3 Universal sharing Lossy, 128-320 kbps
AAC/M4A Apple, podcasts Lossy, efficient
OGG/Opus WhatsApp, Discord Lossy, very efficient

Quality Defaults

  • Podcast: -16 LUFS (Spotify), -19 LUFS (Apple)
  • Music: -14 LUFS (Spotify), -16 LUFS (Apple Music)
  • MP3 quality: VBR -q:a 2 (~190 kbps) or CBR -b:a 192k
  • Sample rate: 44.1kHz for music, 48kHz for video sync

Scope

This skill:

  • Processes audio files user explicitly provides
  • Runs FFmpeg commands on user request
  • Does NOT access cloud services without user knowing
  • Does NOT store files persistently (user manages their files)