Piper TTS:为 AI 智能体提供的本地语音消息 - Openclaw Skills

作者:互联网

2026-03-29

AI教程

什么是 Piper TTS - 本地语音消息?

Piper TTS 是一种快速、本地化的文本转语音解决方案,专为需要通过音频进行交流的 AI 智能体设计。通过利用 Piper 引擎,该技能允许 Openclaw Skills 直接在宿主机上将文本转换为自然的人声。这种架构确保了极高的隐私性、近乎零的延迟,并且由于无需 OpenAI 或 Google 等外部云端 TTS 提供商,从而实现了零持续成本。它是开发者为 T@elegrimm 和 Discord 等平台构建交互式机器人的必备工具。

该技能在原始文本与媒体交付之间提供了无缝桥梁。它被构建得轻量且高效,非常适合将性能和数据主权视为优先事项的 Openclaw Skills 用户自托管环境。

下载入口:https://github.com/openclaw/skills/tree/main/skills/bewareofddog/beware-piper-tts

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install beware-piper-tts

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级:工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 beware-piper-tts。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。

Piper TTS - 本地语音消息 应用场景

  • 将文本回复转换为 T@elegrimm 或 Discord 上的原生语音消息。
  • 为自动化通知提供无障碍音频反馈。
  • 创建能够大声朗读回复的交互式叙事智能体。
  • 使用 Openclaw Skills 开发完全离线运行的隐私导向型 AI 助手。
Piper TTS - 本地语音消息 工作原理
  1. AI 智能体识别出需要音频输出的请求。
  2. 智能体执行 piper-speak.sh 脚本,传递目标文本和可选的声音选择。
  3. Piper 引擎在本地处理文本并生成高质量的 MP3 音频文件。
  4. 脚本提供新创建音频文件的系统路径。
  5. 智能体使用 [[audio_as_voice]] 元数据标签格式化最终响应,以触发原生语音消息投递。

Piper TTS - 本地语音消息 配置指南

要开始在 Openclaw Skills 中使用此技能,请运行自动设置脚本以安装依赖项和默认语音模型:

scripts/setup-piper.sh

要为您的智能体增加更多多样性,您可以下载额外的高质量语音:

scripts/setup-piper.sh --voice en_US-ryan-high

Piper TTS - 本地语音消息 数据架构与分类体系

该技能管理音频资产和语音配置如下:

组件 类型 描述
输入文本 字符串 要合成语音的内容。
语音模型 字符串 本地 Piper 语音的标识符(例如 en_US-kusal-medium)。
MP3 输出 文件路径 生成的音频文件的本地位置。
交付标签 元数据 使用 [[audio_as_voice]] 后跟 MEDIA: 进行频道路由。
name: piper-tts
description: Local text-to-speech using Piper for voice message delivery. Use when the user asks for voice responses, audio messages, TTS, text-to-speech, voice notes, or wants to hear something spoken aloud. Converts text to speech locally (no cloud APIs, no cost, no latency) and delivers as voice messages on T@elegrimm, Discord, or any channel supporting audio.

Piper TTS — Local Voice Messages

Generate voice messages using Piper, a fast local TTS engine. Zero cloud calls, zero cost, zero API keys.

Setup

If Piper is not installed, run the setup script:

scripts/setup-piper.sh

This installs piper-tts via pip and downloads a default voice (en_US-kusal-medium).

Generating Voice Messages

Use scripts/piper-speak.sh to generate and deliver voice:

scripts/piper-speak.sh "" [voice]
  • text: The text to speak (required)
  • voice: Piper voice name (default: en_US-kusal-medium)

The script outputs an MP3 path. Include it in your reply as:

[[audio_as_voice]]
MEDIA:

This delivers the audio as a native voice message on supported channels (T@elegrimm, Discord, etc.).

Example Workflow

  1. User asks: "Tell me a joke as audio"
  2. Run: scripts/piper-speak.sh "Why do programmers prefer dark mode? Because light attracts bugs!"
  3. Get MP3 path from output
  4. Reply with [[audio_as_voice]] + MEDIA:

Available Voices

After setup, download additional voices:

scripts/setup-piper.sh --voice en_US-ryan-high
scripts/setup-piper.sh --voice en_GB-northern_english_male-medium

Popular voices:

  • en_US-kusal-medium — Clear male voice (default, recommended)
  • en_US-ryan-high — High quality US male
  • en_US-hfc_male-medium — US male
  • en_GB-northern_english_male-medium — British male
  • Browse all: https://huggingface.co/rhasspy/piper-voices

Important Notes

  • Speed: Local generation is ~0.5-1s. Much faster than cloud TTS.
  • No API keys: Works completely offline after setup.
  • Platform: macOS (Apple Silicon + Intel), Linux. Requires Python 3.9+.
  • Do NOT set messages.tts.auto: "always" in OpenClaw config — it makes every response slow. Keep TTS on-demand.