在当今快速发展的AI技术领域,语音合成技术正变得越来越重要。Fish-Speech项目应运而生,致力于提供高质量、多功能的语音合成解决方案。相较于v1.5版本带有明显的机器人感,最新推出的OpenAudio S1版本在逼真度上更接近真人。本文将为您详细介绍Fish-Speech项目的模型性能、功能、部署方法以及情感控制提示词的使用指南,帮助您充分发挥这一强大工具的潜力。
模型性能:卓越的准确性与逼真度
Fish-Speech项目的OpenAudio S1模型在语音合成领域表现出色。根据Seed TTS评估指标,该模型在英语文本上的表现尤为突出,达到了0.008的词错误率(WER)和0.004的字符错误率(CER),显著优于以往的模型。这一数据基于OpenAI gpt-4o-transcribe自动评估,并通过Revai/pyannote-wespeaker-voxceleb-resnet34-LM计算说话人距离得出。相比v1.5版本的机械感,S1版在自然度和准确性上实现了质的飞跃。
功能概述:强大而灵活的语音合成工具
Fish-Speech提供了一系列令人印象深刻的功能,满足多样化的使用需求:
- 零样本和少样本TTS:只需输入10到30秒的语音样本,即可生成高质量的TTS输出。想了解更多?请参考语音克隆最佳实践。
- 多语言和跨语言支持:支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。只需将文本粘贴到输入框,模型即可自动处理。
- 无音素依赖:凭借强大的泛化能力,模型无需依赖音素即可处理任何语言脚本的文本。
- 高准确性:在Seed-TTS Eval测试中,CER低至约0.4%,WER约为0.8%。
- 快速推理:通过fish-tech加速技术,在Nvidia RTX 4060笔记本电脑上实时因子为1:5,在Nvidia RTX 4090上为1:15。
- WebUI和GUI推理:提供基于Gradio的Web界面和PyQt6图形界面,支持Linux、Windows和macOS。
- 部署友好:原生支持Linux和Windows
部署指南:轻松上手Fish-Speech
Fish-Speech为Windows和macOS用户提供了详细的本地部署步骤。以下是具体指南:
Windows部署
创建Python 3.10虚拟环境:
conda create -n fish-speech python=3.10
conda activate fish-speech
安装PyTorch:
pip3 install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121
安装Fish-Speech:
pip3 install -e .
(可选)加速部署:
pip install https://github.com/AnyaCoder/fish-speech/releases/download/v0.1.0/triton_windows-0.1.0-py3-none-any.whl
下载模型:
pip install modelscope
modelscope download --model fishaudio/openaudio-s1-mini --cache-dir ./checkpoints
启动WebUI:
python -m tools.run_webui
macOS部署
创建Python 3.10虚拟环境:
conda create -n fish-speech python=3.10
conda activate fish-speech
安装Fish-Speech:
pip install -e ".[stable]"
下载模型:
pip install modelscope
modelscope download --model fishaudio/openaudio-s1-mini --cache-dir ./checkpoints
启动WebUI:python -m tools.run_webui
一键启动包:
对于喜欢简便操作的用户,提供Windows一键包,N卡8G可用。通过卫星公众号 “InnoTechX” 回复“fishspeech”或“fishaudio”,即可获取高速下载地址,无需网盘会员。
使用教程非常简单,如下图


情感控制提示词:赋予语音灵魂
Fish-Speech的OpenAudio S1引入了强大的情感控制提示词系统,让您能精确控制语音的情感和语调,使合成语音不仅逼真,更能“触动人心”。
指令语法
所有指令需放在括号 () 内,格式为:(指令)要朗读的文本。指令对后续文本生效,直到新的指令出现。
指令分类
1. 情感指令
用于设定语音的情感基调,可置于句首或句中。
- 示例:
- (生气)你怎么能这样对我?
- 我这么信任你,(失望)你却让我输得一败涂地。
- 常用指令:
- 基础情感:(生气) (伤心) (兴奋) (惊讶) (高兴) (害怕) (担心) (沮丧) (紧张) 等
- 高级情感:(鄙视) (焦虑) (冷漠) (愤怒) (讽刺) (真诚) 等
2. 语气控制指令
调整语速、音量或语调,增强表达效果。
- 速度:
- (急促的语调)快跑,他们追上来了!
- (柔和的语调)别担心,一切都会好起来的。
- 音量/音调:
- (喊叫)救命!有人吗?
- (耳语)别出声,他们就在附近。
3. 特殊音频效果
模拟非语言声音,需搭配拟声词。
- 示例:
- (笑声)哈哈哈,太好笑了!
- (抽泣)我真的尽力了……呜呜。
- (叹息)唉,这日子没法过了。
高级用法
通过指令组合,创造动态语音效果:
- 示例:(生气)你竟然骗我!(喊叫)马上给我解释清楚!
最佳实践
- 优先使用标准指令:确保效果最佳。
- 避免复杂描述:如(用悲伤安静的声音),建议用(悲伤)(耳语)替代。
- 适度使用:短句中避免堆砌过多指令。
- 注意事项:部分拟声词(如笑声)可能不够自然。
评论区