VibeVoice: 本地西班牙语文本转语音 - Openclaw Skills
作者:互联网
2026-03-30
什么是 VibeVoice TTS?
VibeVoice 是一款先进的本地文本转语音解决方案,它利用微软的 VibeVoice 模型生成逼真的音频。它专为集成在 Openclaw Skills 中而设计,提供私密的、GPU 加速的语音生成,无需依赖外部云端 API。
该技能擅长生成具有自然韵律的西班牙语语音,使其成为自动化通信系统的理想选择。通过在本地运行,它确保了数据隐私,消除了与网络相关服务相关的延迟问题,同时保持了与各种媒体格式兼容的高质量输出。
下载入口:https://github.com/openclaw/skills/tree/main/skills/javier887/vibevoice
安装与下载
1. ClawHub CLI
从源直接安装技能的最快方式。
npx clawhub@latest install vibevoice
2. 手动安装
将技能文件夹复制到以下位置之一
全局模式~/.openclaw/skills/
工作区
/skills/
优先级:工作区 > 本地 > 内置
3. 提示词安装
将此提示词复制到 OpenClaw 即可自动安装。
请帮我使用 Clawhub 安装 vibevoice。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。
VibeVoice TTS 应用场景
- 通过自动化代理发送听起来自然的 WhatsApp 语音消息。
- 为 AI 驱动的桌面交互生成本地音频反馈。
- 使用 Openclaw Skills 为内容创建西班牙语配音。
- 为安全环境开发具备离线能力的语音界面。
- 用户或代理通过文本输入和可选参数(如语音或速度)触发生成脚本。
- 系统通过为 Openclaw Skills 建立的本地 Python 环境初始化 VibeVoice 模型。
- 输入文本由 GPU 加速模型处理,生成高保真原始音频数据。
- ffmpeg 自动将输出转换为所需格式,例如用于移动端兼容的 .ogg。
- 生成的文件保存到指定目录,以便立即使用或通过通讯工具传输。
VibeVoice TTS 配置指南
要开始使用此技能,请按照以下安装步骤操作:
git clone https://github.com/microsoft/VibeVoice.git ~/VibeVoice
cd ~/VibeVoice
python3 -m venv venv
source venv/bin/activate
pip install -e .
pip install torch torchaudio
确保 ffmpeg 和至少具有 2GB 显存的 NVIDIA GPU 可用,以支持 Openclaw Skills 的性能要求。
VibeVoice TTS 数据架构与分类体系
该技能使用以下结构管理音频输出和模型配置:
| 组件 | 详情 |
|---|---|
| 输出格式 | 支持:.ogg (Opus), .mp3, .wav |
| 默认语音 | sp-Spk1_man (带墨西哥口音的西班牙男性) |
| 配置 | 可调节速度 (0.5 - 2.0) 和自定义语音配置文件 |
| 存储 | 本地模型存储在 ~/VibeVoice/demo/voices/ |
name: vibevoice
description: Local Spanish TTS using Microsoft VibeVoice. Generate natural voice audio from text, optimized for WhatsApp voice messages.
metadata:
author: estudiosdurero
version: "1.0.0"
homepage: https://github.com/microsoft/VibeVoice
openclaw:
emoji: "???"
requires:
bins: ["ffmpeg", "python3"]
env: []
install:
- id: "vibevoice-clone"
kind: "manual"
label: "Clone VibeVoice repo and setup venv"
instructions: |
git clone https://github.com/microsoft/VibeVoice.git ~/VibeVoice
cd ~/VibeVoice
python3 -m venv venv
source venv/bin/activate
pip install -e .
pip install torch torchaudio
VibeVoice TTS
Local text-to-speech using Microsoft's VibeVoice model. Generates natural Spanish voice audio, perfect for WhatsApp voice messages.
Quick Start
# Basic usage
{baseDir}/scripts/vv.sh "Hola, esto es una prueba" -o /tmp/audio.ogg
# From file
{baseDir}/scripts/vv.sh -f texto.txt -o /tmp/audio.ogg
# Different voice
{baseDir}/scripts/vv.sh "Texto" -v en-Wayne -o /tmp/audio.ogg
# Adjust speed (0.5-2.0)
{baseDir}/scripts/vv.sh "Texto" -s 1.2 -o /tmp/audio.ogg
Configuration
| Setting | Default | Description |
|---|---|---|
| Voice | sp-Spk1_man |
Spanish male voice (slight Mexican accent) |
| Speed | 1.15 |
15% faster than normal |
| Format | .ogg |
Opus codec for WhatsApp |
Available Voices
Spanish:
sp-Spk1_man- Male, slight Mexican accent (default)
English:
en-Wayne- Maleen-Denise- Female- Other voices in
~/VibeVoice/demo/voices/streaming_model/
Output Formats
.ogg- Opus codec (WhatsApp compatible, recommended).mp3- MP3 format.wav- Uncompressed WAV
For WhatsApp
Always use .ogg format with asVoice=true in the message tool:
# Generate
{baseDir}/scripts/vv.sh "Tu mensaje aquí" -o /tmp/mensaje.ogg
# Send via message tool
message action=send channel=whatsapp to="+34XXXXXXXXX" filePath=/tmp/mensaje.ogg asVoice=true
Requirements
- GPU: NVIDIA with ~2GB VRAM
- VibeVoice: Installed at
~/VibeVoice - ffmpeg: For audio conversion
- Python 3.10+: With torch, torchaudio
Performance
- RTF: ~0.24x (generates faster than realtime)
- 1 minute of audio ≈ 15 seconds to generate
Notes
- First run loads model (~10s), subsequent runs are faster
- Audio rule: Only send voice if user requests it or speaks via audio
- Keep text under 1500 chars for best quality
相关推荐
专题
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
最新数据
相关文章
信号管道:自动化营销情报工具 - Openclaw Skills
技能收益追踪器:监控 Openclaw 技能并实现变现
AI 合规准备就绪度:评估与治理工具 - Openclaw Skills
FOSMVVM ServerRequest 测试生成器:自动化 API 测试 - Openclaw Skills
酒店搜索器:AI 赋能的住宿与位置情报 - Openclaw Skills
Dub 链接 API:程序化链接管理 - Openclaw Skills
IntercomSwap:P2P BTC 与 USDT 跨链兑换 - Openclaw Skills
spotplay:macOS 原生 Spotify 播放控制 - Openclaw Skills
DeepSeek OCR:AI驱动的图像文本识别 - Openclaw Skills
Web Navigator:自动化网页研究与浏览 - Openclaw Skills
AI精选
