VibeVoice: 本地西班牙语文本转语音 - Openclaw Skills

作者:互联网

2026-03-30

AI教程

什么是 VibeVoice TTS?

VibeVoice 是一款先进的本地文本转语音解决方案,它利用微软的 VibeVoice 模型生成逼真的音频。它专为集成在 Openclaw Skills 中而设计,提供私密的、GPU 加速的语音生成,无需依赖外部云端 API。

该技能擅长生成具有自然韵律的西班牙语语音,使其成为自动化通信系统的理想选择。通过在本地运行,它确保了数据隐私,消除了与网络相关服务相关的延迟问题,同时保持了与各种媒体格式兼容的高质量输出。

下载入口:https://github.com/openclaw/skills/tree/main/skills/javier887/vibevoice

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install vibevoice

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级:工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 vibevoice。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。

VibeVoice TTS 应用场景

  • 通过自动化代理发送听起来自然的 WhatsApp 语音消息。
  • 为 AI 驱动的桌面交互生成本地音频反馈。
  • 使用 Openclaw Skills 为内容创建西班牙语配音。
  • 为安全环境开发具备离线能力的语音界面。
VibeVoice TTS 工作原理
  1. 用户或代理通过文本输入和可选参数(如语音或速度)触发生成脚本。
  2. 系统通过为 Openclaw Skills 建立的本地 Python 环境初始化 VibeVoice 模型。
  3. 输入文本由 GPU 加速模型处理,生成高保真原始音频数据。
  4. ffmpeg 自动将输出转换为所需格式,例如用于移动端兼容的 .ogg。
  5. 生成的文件保存到指定目录,以便立即使用或通过通讯工具传输。

VibeVoice TTS 配置指南

要开始使用此技能,请按照以下安装步骤操作:

git clone https://github.com/microsoft/VibeVoice.git ~/VibeVoice
cd ~/VibeVoice
python3 -m venv venv
source venv/bin/activate
pip install -e .
pip install torch torchaudio

确保 ffmpeg 和至少具有 2GB 显存的 NVIDIA GPU 可用,以支持 Openclaw Skills 的性能要求。

VibeVoice TTS 数据架构与分类体系

该技能使用以下结构管理音频输出和模型配置:

组件 详情
输出格式 支持:.ogg (Opus), .mp3, .wav
默认语音 sp-Spk1_man (带墨西哥口音的西班牙男性)
配置 可调节速度 (0.5 - 2.0) 和自定义语音配置文件
存储 本地模型存储在 ~/VibeVoice/demo/voices/
name: vibevoice
description: Local Spanish TTS using Microsoft VibeVoice. Generate natural voice audio from text, optimized for WhatsApp voice messages.
metadata:
  author: estudiosdurero
  version: "1.0.0"
  homepage: https://github.com/microsoft/VibeVoice
  openclaw:
    emoji: "???"
    requires:
      bins: ["ffmpeg", "python3"]
      env: []
    install:
      - id: "vibevoice-clone"
        kind: "manual"
        label: "Clone VibeVoice repo and setup venv"
        instructions: |
          git clone https://github.com/microsoft/VibeVoice.git ~/VibeVoice
          cd ~/VibeVoice
          python3 -m venv venv
          source venv/bin/activate
          pip install -e .
          pip install torch torchaudio

VibeVoice TTS

Local text-to-speech using Microsoft's VibeVoice model. Generates natural Spanish voice audio, perfect for WhatsApp voice messages.

Quick Start

# Basic usage
{baseDir}/scripts/vv.sh "Hola, esto es una prueba" -o /tmp/audio.ogg

# From file
{baseDir}/scripts/vv.sh -f texto.txt -o /tmp/audio.ogg

# Different voice
{baseDir}/scripts/vv.sh "Texto" -v en-Wayne -o /tmp/audio.ogg

# Adjust speed (0.5-2.0)
{baseDir}/scripts/vv.sh "Texto" -s 1.2 -o /tmp/audio.ogg

Configuration

Setting Default Description
Voice sp-Spk1_man Spanish male voice (slight Mexican accent)
Speed 1.15 15% faster than normal
Format .ogg Opus codec for WhatsApp

Available Voices

Spanish:

  • sp-Spk1_man - Male, slight Mexican accent (default)

English:

  • en-Wayne - Male
  • en-Denise - Female
  • Other voices in ~/VibeVoice/demo/voices/streaming_model/

Output Formats

  • .ogg - Opus codec (WhatsApp compatible, recommended)
  • .mp3 - MP3 format
  • .wav - Uncompressed WAV

For WhatsApp

Always use .ogg format with asVoice=true in the message tool:

# Generate
{baseDir}/scripts/vv.sh "Tu mensaje aquí" -o /tmp/mensaje.ogg

# Send via message tool
message action=send channel=whatsapp to="+34XXXXXXXXX" filePath=/tmp/mensaje.ogg asVoice=true

Requirements

  • GPU: NVIDIA with ~2GB VRAM
  • VibeVoice: Installed at ~/VibeVoice
  • ffmpeg: For audio conversion
  • Python 3.10+: With torch, torchaudio

Performance

  • RTF: ~0.24x (generates faster than realtime)
  • 1 minute of audio ≈ 15 seconds to generate

Notes

  • First run loads model (~10s), subsequent runs are faster
  • Audio rule: Only send voice if user requests it or speaks via audio
  • Keep text under 1500 chars for best quality