在当今快速发展的AI技术领域,语音合成技术正变得越来越重要。Fish-Speech项目应运而生,致力于提供高质量、多功能的语音合成解决方案。相较于v1.5版本带有明显的机器人感,最新推出的OpenAudio S1版本在逼真度上更接近真人。本文将为您详细介绍Fish-Speech项目的模型性能、功能、部署方法以及情感控制提示词的使用指南,帮助您充分发挥这一强大工具的潜力。

模型性能:卓越的准确性与逼真度

Fish-Speech项目的OpenAudio S1模型在语音合成领域表现出色。根据Seed TTS评估指标,该模型在英语文本上的表现尤为突出,达到了0.008的词错误率(WER)和0.004的字符错误率(CER),显著优于以往的模型。这一数据基于OpenAI gpt-4o-transcribe自动评估,并通过Revai/pyannote-wespeaker-voxceleb-resnet34-LM计算说话人距离得出。相比v1.5版本的机械感,S1版在自然度和准确性上实现了质的飞跃。

功能概述:强大而灵活的语音合成工具

Fish-Speech提供了一系列令人印象深刻的功能,满足多样化的使用需求:

  • 零样本和少样本TTS:只需输入10到30秒的语音样本,即可生成高质量的TTS输出。想了解更多?请参考语音克隆最佳实践。
  • 多语言和跨语言支持:支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。只需将文本粘贴到输入框,模型即可自动处理。
  • 无音素依赖:凭借强大的泛化能力,模型无需依赖音素即可处理任何语言脚本的文本。
  • 高准确性:在Seed-TTS Eval测试中,CER低至约0.4%,WER约为0.8%
  • 快速推理:通过fish-tech加速技术,在Nvidia RTX 4060笔记本电脑上实时因子为1:5,在Nvidia RTX 4090上为1:15。
  • WebUI和GUI推理:提供基于Gradio的Web界面和PyQt6图形界面,支持Linux、Windows和macOS。
  • 部署友好:原生支持Linux和Windows

部署指南:轻松上手Fish-Speech

Fish-Speech为Windows和macOS用户提供了详细的本地部署步骤。以下是具体指南:

Windows部署

创建Python 3.10虚拟环境:
conda create -n fish-speech python=3.10 
conda activate fish-speech
安装PyTorch:
pip3 install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121
安装Fish-Speech:
pip3 install -e .
(可选)加速部署:
pip install https://github.com/AnyaCoder/fish-speech/releases/download/v0.1.0/triton_windows-0.1.0-py3-none-any.whl
下载模型:
pip install modelscope 
modelscope download --model fishaudio/openaudio-s1-mini --cache-dir ./checkpoints
启动WebUI:
python -m tools.run_webui

macOS部署

创建Python 3.10虚拟环境:
conda create -n fish-speech python=3.10 
conda activate fish-speech
安装Fish-Speech:
pip install -e ".[stable]"
下载模型:
pip install modelscope 
modelscope download --model fishaudio/openaudio-s1-mini --cache-dir ./checkpoints
启动WebUI:python -m tools.run_webui

一键启动包:

对于喜欢简便操作的用户,提供Windows一键包,N卡8G可用。通过卫星公众号 “InnoTechX” 回复“fishspeech”或“fishaudio”,即可获取高速下载地址,无需网盘会员。

使用教程非常简单,如下图

情感控制提示词:赋予语音灵魂

Fish-Speech的OpenAudio S1引入了强大的情感控制提示词系统,让您能精确控制语音的情感和语调,使合成语音不仅逼真,更能“触动人心”。

指令语法

所有指令需放在括号 () 内,格式为:(指令)要朗读的文本。指令对后续文本生效,直到新的指令出现。

指令分类

1. 情感指令

用于设定语音的情感基调,可置于句首或句中。

  • 示例
    • (生气)你怎么能这样对我?
    • 我这么信任你,(失望)你却让我输得一败涂地。
  • 常用指令
    • 基础情感:(生气) (伤心) (兴奋) (惊讶) (高兴) (害怕) (担心) (沮丧) (紧张) 等
    • 高级情感:(鄙视) (焦虑) (冷漠) (愤怒) (讽刺) (真诚) 等

2. 语气控制指令

调整语速、音量或语调,增强表达效果。

  • 速度
    • (急促的语调)快跑,他们追上来了!
    • (柔和的语调)别担心,一切都会好起来的。
  • 音量/音调
    • (喊叫)救命!有人吗?
    • (耳语)别出声,他们就在附近。

3. 特殊音频效果

模拟非语言声音,需搭配拟声词。

  • 示例
    • (笑声)哈哈哈,太好笑了!
    • (抽泣)我真的尽力了……呜呜。
    • (叹息)唉,这日子没法过了。

高级用法

通过指令组合,创造动态语音效果:

  • 示例:(生气)你竟然骗我!(喊叫)马上给我解释清楚!

最佳实践

  • 优先使用标准指令:确保效果最佳。
  • 避免复杂描述:如(用悲伤安静的声音),建议用(悲伤)(耳语)替代。
  • 适度使用:短句中避免堆砌过多指令。
  • 注意事项:部分拟声词(如笑声)可能不够自然。

分类于: