音频技能：处理、转换与转录 - Openclaw Skills-脚本在线

AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

音频技能：处理、转换与转录 - Openclaw Skills

作者：互联网

2026-03-26

AI教程

什么是音频处理与转录？

音频技能是为使用 Openclaw Skills 管理复杂音频工作流的用户设计的专业级扩展。它提供了一个强大的音频文件操作界面，允许智能体执行高质量转换、消除背景噪音，并确保音频符合各种流媒体平台的严格响度标准。通过集成 FFmpeg 和 SoX 等核心实用程序，它为 AI 智能体环境带来了录音室级别的处理能力。

对于需要自动化音频制作中乏味部分的开发人员和创作者来说，这项技能特别有价值。从简单的格式更改到高级的音轨分离和本地转录，Openclaw Skills 库的这一补充确保了您的智能体能够精确且技术准确地处理任何音频任务。

下载入口:https://github.com/openclaw/skills/tree/main/skills/ivangdavila/audio

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install audio

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级：工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 audio。如果尚未安装 Clawhub，请先安装（npm i -g clawhub）。

音频处理与转录应用场景

通过应用 Spotify 或 Apple Podcasts 的响度归一化来自动化播客制作。
将高分辨率母带文件转换为压缩的网页就绪格式，如 MP3 或 OGG。
使用 Whisper 集成从音频生成本地化字幕或文本转录。
从视频文件中提取音频轨道以创建独立素材。
批量处理音频文件以调整播放速度或应用降噪滤镜。

音频处理与转录工作原理

智能体识别特定目标，如目标格式、响度要求或转录需求。
使用 ffprobe 分析源文件以确定其编码器、采样率和声道配置。
根据用户的特定请求或选择的工作流模板，使用 FFmpeg 或 SoX 应用转换逻辑。
验证生成的输出以确保其能够正确播放并符合所需的技术规范。
最终处理的文件将交付给用户或移动到指定的输出目录。

音频处理与转录配置指南

要在您的 Openclaw Skills 设置中开始使用此技能，您必须安装所需的系统二进制文件。

# 安装核心音频处理工具
sudo apt install ffmpeg ffprobe

# 可选：安装 SoX 以使用高级降噪滤镜
sudo apt install sox

# 可选：安装 Whisper 以支持本地转录
pip install openai-whisper

音频处理与转录数据架构与分类体系

该技能基于技术元数据和行业标准管理音频数据。

组件	描述
编解码器	支持 libmp3lame、AAC、FLAC、WAV 和 Opus
响度	标准包括 -16 LUFS (Spotify) 和 -19 LUFS (Apple)
元数据	通过 ffprobe 提取采样率、比特率和时长
音轨分离	通过 Demucs 组织分离的轨道（人声、贝斯、鼓）

name: Audio
slug: audio
version: 1.0.1
description: Process, enhance, and convert audio files with noise removal, normalization, format conversion, transcription, and podcast workflows.
changelog: Declare required binaries (ffmpeg, ffprobe), add requirements section with optional deps, add explicit scope
metadata: {"clawdbot":{"emoji":"??","requires":{"bins":["ffmpeg","ffprobe"]},"os":["linux","darwin","win32"]}}

Requirements

Required:

ffmpeg / ffprobe — core audio processing

Optional (for advanced features):

sox — additional noise reduction
whisper — local transcription (or use API)
demucs — stem separation

Quick Reference

Situation	Load
FFmpeg commands by task	`commands.md`
Loudness standards by platform	`loudness.md`
Podcast production workflow	`podcast.md`
Transcription workflow	`transcription.md`

Core Capabilities

Task	Method
Convert formats	FFmpeg (`-acodec`)
Remove noise	FFmpeg filters or SoX
Normalize loudness	`ffmpeg-normalize` or `-af loudnorm`
Transcribe	Whisper → text, SRT, VTT
Separate stems	Demucs (vocals, drums, bass, other)

Execution Pattern

Clarify goal — What format? What loudness? What platform?
Analyze source — ffprobe for codec, sample rate, channels, duration
Process — FFmpeg/SoX for transformation
Verify — Check output plays, meets specs, sounds correct
Deliver — Provide file to user

Common Requests → Actions

User says	Agent does
"Convert to MP3"	`-acodec libmp3lame -q:a 2`
"Remove background noise"	Apply highpass/lowpass or dedicated denoiser
"Normalize for podcast"	`-af loudnorm=I=-16:TP=-1.5:LRA=11`
"Transcribe this"	Whisper → output SRT/VTT/TXT
"Extract audio from video"	`-vn -acodec copy` or re-encode
"Make it smaller"	Lower bitrate: `-b:a 128k` or `-b:a 96k`
"Speed up 1.5x"	`-af atempo=1.5`

Format Quick Reference

Format	Use Case	Quality
WAV	Master, editing	Lossless
FLAC	Archive, audiophile	Lossless compressed
MP3	Universal sharing	Lossy, 128-320 kbps
AAC/M4A	Apple, podcasts	Lossy, efficient
OGG/Opus	WhatsApp, Discord	Lossy, very efficient