Ressemble AI:为 Openclaw Skills 提供专业的 TTS 和 STT

作者:互联网

2026-03-31

AI教程

什么是 Ressemble AI 语音集成?

Ressemble AI 集成旨在缩小 AI 智能体与语音通信之间的差距。通过利用 Resemble AI HTTP API,此技能允许开发人员从文本生成逼真的音频,并将口语转换为准确的文本摘要或命令。

通过 Openclaw Skills 集成这些功能可以实现更具交互性和无障碍的应用。无论您是需要为您的智能体赋予特定的声音,还是处理音频数据进行进一步分析,此技能都提供了必要的端点来处理高质量的语音合成和可靠的转录轮询。

下载入口:https://github.com/openclaw/skills/tree/main/skills/adriano-vr/ressemble

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install ressemble

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级:工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 ressemble。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。

Ressemble AI 语音集成 应用场景

  • 为营销或教学内容自动生成高质量配音。
  • 在自动化工作流中直接转录会议、访谈或语音笔记。
  • 为需要输入和输出音频的 AI 智能体构建语音界面。
  • 将复杂的文档转换为音频格式,以便在解放双手的情况下阅读。
Ressemble AI 语音集成 工作原理
  1. 用户在 Openclaw Skills 环境中向相应的 Ressemble 函数提供文本或音频文件。
  2. 对于文本转语音,该技能使用指定的语音 UUID 向 Resemble 的生产端点发送安全请求。
  3. 对于语音转文本,该技能处理多部分音频上传并启动异步轮询程序。
  4. 系统监控转录状态直至完成,确保可靠的数据检索。
  5. 最终输出(无论是 Base64 编码的音频还是清晰的文本转录)将返回给智能体,用于工作流的下一步。

Ressemble AI 语音集成 配置指南

要开始使用此 Openclaw Skills 集成,您必须配置 API 凭据。在您的终端或配置文件中设置以下环境变量:

export RESEMBLE_API_KEY="your_api_key_here"

确保您拥有 Resemble AI 的活动账户以生成唯一的 API 密钥。

Ressemble AI 语音集成 数据架构与分类体系

组件 描述 格式
resemble-tts 输入 包含目标文本和特定 voice_uuid 的 JSON 对象 application/json
resemble-tts 输出 以 Base64 字符串或 MP3 文件形式返回的合成语音 audio/mpeg
resemble-stt 输入 通过多部分上传提交的多媒体音频文件 multipart/form-data
resemble-stt 输出 最终确定的转录文本字符串 text/plain
name: ressemble
displayName: Ressemble - Adriano
version: 1.0.0
description: Text-to-Speech and Speech-to-Text integration using Resemble AI HTTP API.
author: Adriano Vargas
tags: [tts, stt, audio, ai, voice]

Ressemble – Text & Voice AI Integration

This skill integrates OpenClaw with the Resemble AI HTTP API, enabling:

  • ?? Speech-to-Text (audio transcription)
  • ?? Text-to-Speech (voice synthesis)

It uses direct HTTP calls to Resemble's production endpoints and supports asynchronous transcription polling.


Features

resemble-tts

Generate high-quality speech audio from text input.

Supports:

  • Custom voice_uuid
  • MP3 output format
  • Base64 audio return

resemble-stt

Transcribe audio files to text using Resemble AI.

Supports:

  • Multipart audio upload
  • Automatic polling until transcription is complete
  • Returns clean transcript text

Requirements

You must define the environment variable:

export RESEMBLE_API_KEY="your_api_key_here"

相关推荐