前段时间,和大家分享过一款语音克隆神器:
FishSpeech 实测,免费语音克隆神器,5分钟部署实战,让川普给你来段中文绕口令?
时隔 5 个月,fish-speech 发布重大更新,最新版本已到 1.5。
今日分享,将介绍 fish-speech 的最新更新,并带大家本地部署体验,为本地 TTS 选型提供参考。
1. Fish-Speech 简介
项目地址:https://github.com/fishaudio/fish-speech
Fish Speech 1.5 目前支持13种语言,在匿名的 TTS Arena 上排名第二,仅次于闭源的 ElevenLabs。
相比 1.4,Fish Speech 1.5 有哪些亮点?
- DualAR 架构:双自回归Transformer设计。主 Transformer 以 21Hz 运行,次Transformer将潜在状态转换为声学特征。计算效率和输出质量都优于传统的级联方法。
- 训练数据:拥有 100 万小时的多语言训练数据;
- 高准确率:英文单词错误率(WER)为3.5%,英文字符错误率(CER)为1.2%,中文字符错误率(CER)为1.3%;
- 低延迟:语音克隆延迟低于 150 毫秒。
- 强泛化:摒弃了传统的音素依赖,直接理解与处理文本,无需繁杂的语音规则库。
本次更新,预训练模型同样开源。
下面我们实操本地部署,看看效果如何?
2. 本地部署
项目地址:https://github.com/fishaudio/fish-speech
首先,下载项目仓库,根据官方文档,安装环境依