Fish Audio Fish Speech 超强语音克隆：情感丰富、语速音调自由控制，本地部署教程+一键包

在当今快速发展的AI技术领域，语音合成技术正变得越来越重要。Fish-Speech项目应运而生，致力于提供高质量、多功能的语音合成解决方案。相较于v1.5版本带有明显的机器人感，最新推出的OpenAudio S1版本在逼真度上更接近真人。本文将为您详细介绍Fish-Speech项目的模型性能、功能、部署方法以及情感控制提示词的使用指南，帮助您充分发挥这一强大工具的潜力。

模型性能：卓越的准确性与逼真度

Fish-Speech项目的OpenAudio S1模型在语音合成领域表现出色。根据Seed TTS评估指标，该模型在英语文本上的表现尤为突出，达到了0.008的词错误率（WER）和0.004的字符错误率（CER），显著优于以往的模型。这一数据基于OpenAI gpt-4o-transcribe自动评估，并通过Revai/pyannote-wespeaker-voxceleb-resnet34-LM计算说话人距离得出。相比v1.5版本的机械感，S1版在自然度和准确性上实现了质的飞跃。

功能概述：强大而灵活的语音合成工具

Fish-Speech提供了一系列令人印象深刻的功能，满足多样化的使用需求：

零样本和少样本TTS：只需输入10到30秒的语音样本，即可生成高质量的TTS输出。想了解更多？请参考语音克隆最佳实践。
多语言和跨语言支持：支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。只需将文本粘贴到输入框，模型即可自动处理。
无音素依赖：凭借强大的泛化能力，模型无需依赖音素即可处理任何语言脚本的文本。
高准确性：在Seed-TTS Eval测试中，CER低至约0.4%，WER约为0.8%。
快速推理：通过fish-tech加速技术，在Nvidia RTX 4060笔记本电脑上实时因子为1:5，在Nvidia RTX 4090上为1:15。
WebUI和GUI推理：提供基于Gradio的Web界面和PyQt6图形界面，支持Linux、Windows和macOS。
部署友好：原生支持Linux和Windows

部署指南：轻松上手Fish-Speech

Fish-Speech为Windows和macOS用户提供了详细的本地部署步骤。以下是具体指南：

Windows部署

创建Python 3.10虚拟环境：
conda create -n fish-speech python=3.10 
conda activate fish-speech
安装PyTorch：
pip3 install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121
安装Fish-Speech：
pip3 install -e .
（可选）加速部署：
pip install https://github.com/AnyaCoder/fish-speech/releases/download/v0.1.0/triton_windows-0.1.0-py3-none-any.whl
下载模型：
pip install modelscope 
modelscope download --model fishaudio/openaudio-s1-mini --cache-dir ./checkpoints
启动WebUI：
python -m tools.run_webui

macOS部署

创建Python 3.10虚拟环境：
conda create -n fish-speech python=3.10 
conda activate fish-speech
安装Fish-Speech：
pip install -e ".[stable]"
下载模型：
pip install modelscope 
modelscope download --model fishaudio/openaudio-s1-mini --cache-dir ./checkpoints
启动WebUI：python -m tools.run_webui

一键启动包：

对于喜欢简便操作的用户，提供Windows一键包，N卡8G可用。通过卫星公众号 “InnoTechX” 回复“fishspeech”或“fishaudio”，即可获取高速下载地址，无需网盘会员。

使用教程非常简单，如下图

情感控制提示词：赋予语音灵魂

Fish-Speech的OpenAudio S1引入了强大的情感控制提示词系统，让您能精确控制语音的情感和语调，使合成语音不仅逼真，更能“触动人心”。

指令语法

所有指令需放在括号 () 内，格式为：(指令)要朗读的文本。指令对后续文本生效，直到新的指令出现。

指令分类

1. 情感指令

用于设定语音的情感基调，可置于句首或句中。

示例：
- (生气)你怎么能这样对我？
- 我这么信任你，(失望)你却让我输得一败涂地。

常用指令：
- 基础情感：(生气) (伤心) (兴奋) (惊讶) (高兴) (害怕) (担心) (沮丧) (紧张) 等
- 高级情感：(鄙视) (焦虑) (冷漠) (愤怒) (讽刺) (真诚) 等

2. 语气控制指令

调整语速、音量或语调，增强表达效果。

速度：
- (急促的语调)快跑，他们追上来了！
- (柔和的语调)别担心，一切都会好起来的。

音量/音调：
- (喊叫)救命！有人吗？
- (耳语)别出声，他们就在附近。

3. 特殊音频效果

模拟非语言声音，需搭配拟声词。

示例：
- (笑声)哈哈哈，太好笑了！
- (抽泣)我真的尽力了……呜呜。
- (叹息)唉，这日子没法过了。

高级用法

通过指令组合，创造动态语音效果：

示例：(生气)你竟然骗我！(喊叫)马上给我解释清楚！

最佳实践

优先使用标准指令：确保效果最佳。
避免复杂描述：如(用悲伤安静的声音)，建议用(悲伤)(耳语)替代。
适度使用：短句中避免堆砌过多指令。
注意事项：部分拟声词（如笑声）可能不够自然。

分类于:

未分类

Fish Audio Fish Speech 超强语音克隆：情感丰富、语速音调自由控制，本地部署教程+一键包

模型性能：卓越的准确性与逼真度

功能概述：强大而灵活的语音合成工具

部署指南：轻松上手Fish-Speech

Windows部署

macOS部署

一键启动包：

使用教程非常简单，如下图

情感控制提示词：赋予语音灵魂

指令语法

指令分类

1. 情感指令

2. 语气控制指令

3. 特殊音频效果

高级用法

最佳实践

关于作者

Innotech Spark

查看该作者的最新文章：

PersonaLive 实时数字人分身：12GB 显存跑起来

AI唱歌新玩法：库库涨粉教程，歌曲原创，人物情感逼真细腻！

是时候告别向日葵、Todesk、TeamViewer了，快速搭建自托管服务器RustDesk

评论区

发表回复取消回复

上一篇文章

潮了! 低配电脑6G显存生成60秒视频本地部署/一键包/批量生成！FramePack AI图生视频核弹

下一篇文章

FLUX.Kontext 一句话P图界的神，淘汰了80％的工作流，本地部署。

按 ESC 关闭

或者查看我们的热门类别...

模型性能：卓越的准确性与逼真度

功能概述：强大而灵活的语音合成工具

部署指南：轻松上手Fish-Speech

Windows部署

macOS部署

一键启动包：

使用教程非常简单，如下图

情感控制提示词：赋予语音灵魂

指令语法

指令分类

1. 情感指令

2. 语气控制指令

3. 特殊音频效果

高级用法

最佳实践

关于作者

查看该作者的最新文章：

评论区

发表回复 取消回复

相关文章

上一篇文章

下一篇文章

发表回复取消回复