Voicetral

VC/VC++ 2025-07-31

Voicetral

概述

该项目提供了Ollama模型与Applio的文本对语音(TTS)和语音转换服务之间的接口。它将用户语音输入转换为文本,使用Ollama生成响应,然后综合并使用Applio播放响应。

特征

  • 语音到文本转换使用speech_recognition
  • 使用Ollama模型的文本生成。
  • 使用Applio的文本到语音转换和语音转换。
  • 使用sounddevice播放音频。
  • 音频与pydub进行重新采样和处理。

要求

软件依赖性

  • Python 3.9
  • FFMPEG(用于音频处理)
  • Ollama :文本生成的模型服务。访问Ollama的网站以进行安装和使用说明。
  • Applio :用于文本到语音和语音转换的服务。请访问Applio的网站以进行安装和使用说明。

Python包

所需的python软件包在requirements.txt中列出。要安装它们,请使用以下命令:

 pip install -r requirements.txt

配置

  1. FFMPEG :确保在系统路径中安装FFMPEG并可以访问。您可以从此处下载FFMPEG,并按照操作系统的安装说明进行操作。

  2. Ollama :根据其网站上的说明安装和运行Ollama服务。确保在指定的URL上可以访问它。

  3. Applio :根据其网站上的说明安装并运行Aptio服务。确保它在指定的端口上本地运行(默认值: http://127.*0.**0.1:6969/ ://127.0.0.1:6969/)。

  4. 配置文件:使用环境的适当路径和设置更新config.ini文件。

    • START_PROMPT :Ollama模型的初始提示。
    • OLLAMA_MODEL :使用的Ollama模型的名称。
    • APPLIO_TTS_VOICE :Applio TTS的语音配置。
    • APPLIO_PTH_PATH :通往Applio模型文件的路径。
    • APPLIO_INDEX_PATH :通往Applio索引文件的路径。
    • APPLIO_TTS_OUTPUT_PATH :将保存TTS输出的路径。
    • APPLIO_RVC_OUTPUT_PATH :将保存RVC输出的路径。

安装

  1. 克隆存储库:

    Voicetral">
    git clone https://g*ithub*.c*om/Skulux/Voicetral
    cd Voicetral
  2. 创建并激活虚拟环境:

    python -m venv venv
    source venv/bin/activate  # On Windows, use `venv\Scripts\activate`
  3. 安装所需的软件包:

    pip install -r requirements.txt
  4. 确保安装FFMPEG并在路径中正确配置。

  5. 按照各自的说明安装并启动Ollama和Applio服务。

用法

  1. 使用“配置”部分中所述的必要设置配置您的config.ini文件。

  2. 运行主脚本:

    python main.py
  3. 遵循屏幕上的提示。向您的麦克风说话以与机器人互动。

  4. 说“退出”以停止程序。如果您想保存对话历史记录,这很重要。

执照

该项目是根据MIT许可证获得许可的 - 有关详细信息,请参见许可证文件。

贡献

如果您有建议或改进,请随时提交问题或提取请求。对于重大更改,请先开设一个问题,以讨论您想更改的内容。

接触

有关问题或反馈,请联系github@petrilionis.lt或在项目的GitHub存储库上打开问题。

外部服务

  • Ollama :安装和使用说明
  • Applio :安装和使用说明
下载源码

通过命令行克隆项目:

git clone https://github.com/Skulux/Voicetral.git