VibeVoice: 本地西班牙语文本转语音 - Openclaw Skills-脚本在线

AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

VibeVoice: 本地西班牙语文本转语音 - Openclaw Skills

作者：互联网

2026-03-30

AI教程

什么是 VibeVoice TTS？

VibeVoice 是一款先进的本地文本转语音解决方案，它利用微软的 VibeVoice 模型生成逼真的音频。它专为集成在 Openclaw Skills 中而设计，提供私密的、GPU 加速的语音生成，无需依赖外部云端 API。

该技能擅长生成具有自然韵律的西班牙语语音，使其成为自动化通信系统的理想选择。通过在本地运行，它确保了数据隐私，消除了与网络相关服务相关的延迟问题，同时保持了与各种媒体格式兼容的高质量输出。

下载入口:https://github.com/openclaw/skills/tree/main/skills/javier887/vibevoice

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install vibevoice

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级：工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 vibevoice。如果尚未安装 Clawhub，请先安装（npm i -g clawhub）。

VibeVoice TTS 应用场景

通过自动化代理发送听起来自然的 WhatsApp 语音消息。
为 AI 驱动的桌面交互生成本地音频反馈。
使用 Openclaw Skills 为内容创建西班牙语配音。
为安全环境开发具备离线能力的语音界面。

VibeVoice TTS 工作原理

用户或代理通过文本输入和可选参数（如语音或速度）触发生成脚本。
系统通过为 Openclaw Skills 建立的本地 Python 环境初始化 VibeVoice 模型。
输入文本由 GPU 加速模型处理，生成高保真原始音频数据。
ffmpeg 自动将输出转换为所需格式，例如用于移动端兼容的 .ogg。
生成的文件保存到指定目录，以便立即使用或通过通讯工具传输。

VibeVoice TTS 配置指南

要开始使用此技能，请按照以下安装步骤操作：

git clone https://github.com/microsoft/VibeVoice.git ~/VibeVoice
cd ~/VibeVoice
python3 -m venv venv
source venv/bin/activate
pip install -e .
pip install torch torchaudio

确保 ffmpeg 和至少具有 2GB 显存的 NVIDIA GPU 可用，以支持 Openclaw Skills 的性能要求。

VibeVoice TTS 数据架构与分类体系

该技能使用以下结构管理音频输出和模型配置：

组件	详情
输出格式	支持：.ogg (Opus), .mp3, .wav
默认语音	sp-Spk1_man (带墨西哥口音的西班牙男性)
配置	可调节速度 (0.5 - 2.0) 和自定义语音配置文件
存储	本地模型存储在 ~/VibeVoice/demo/voices/

name: vibevoice
description: Local Spanish TTS using Microsoft VibeVoice. Generate natural voice audio from text, optimized for WhatsApp voice messages.
metadata:
  author: estudiosdurero
  version: "1.0.0"
  homepage: https://github.com/microsoft/VibeVoice
  openclaw:
    emoji: "???"
    requires:
      bins: ["ffmpeg", "python3"]
      env: []
    install:
      - id: "vibevoice-clone"
        kind: "manual"
        label: "Clone VibeVoice repo and setup venv"
        instructions: |
          git clone https://github.com/microsoft/VibeVoice.git ~/VibeVoice
          cd ~/VibeVoice
          python3 -m venv venv
          source venv/bin/activate
          pip install -e .
          pip install torch torchaudio

VibeVoice TTS

Local text-to-speech using Microsoft's VibeVoice model. Generates natural Spanish voice audio, perfect for WhatsApp voice messages.

Quick Start

# Basic usage
{baseDir}/scripts/vv.sh "Hola, esto es una prueba" -o /tmp/audio.ogg

# From file
{baseDir}/scripts/vv.sh -f texto.txt -o /tmp/audio.ogg

# Different voice
{baseDir}/scripts/vv.sh "Texto" -v en-Wayne -o /tmp/audio.ogg

# Adjust speed (0.5-2.0)
{baseDir}/scripts/vv.sh "Texto" -s 1.2 -o /tmp/audio.ogg

Configuration

Setting	Default	Description
Voice	`sp-Spk1_man`	Spanish male voice (slight Mexican accent)
Speed	`1.15`	15% faster than normal
Format	`.ogg`	Opus codec for WhatsApp

Available Voices

Spanish:

sp-Spk1_man - Male, slight Mexican accent (default)

English:

en-Wayne - Male
en-Denise - Female
Other voices in ~/VibeVoice/demo/voices/streaming_model/

Output Formats

.ogg - Opus codec (WhatsApp compatible, recommended)
.mp3 - MP3 format
.wav - Uncompressed WAV

For WhatsApp

Always use .ogg format with asVoice=true in the message tool:

# Generate
{baseDir}/scripts/vv.sh "Tu mensaje aquí" -o /tmp/mensaje.ogg

# Send via message tool
message action=send channel=whatsapp to="+34XXXXXXXXX" filePath=/tmp/mensaje.ogg asVoice=true