FishSpeech1.5,语音克隆,TTS,多语言,零样本推理(WIN/MAC)

最新推荐文章于 2025-06-25 18:14:56 发布

原创最新推荐文章于 2025-06-25 18:14:56 发布 · 2.1k 阅读

·

20

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#macos #python #AIGC

AI 专栏收录该内容

47 篇文章

订阅专栏

语音克隆项目FishSpeech1.5更新咯~类似之前我分享的例如F5-TTS、MaskGCT等声音克隆项目，FishSpeech只需要5-10秒的语音样本，就能高度还原一个人的声音特征，而且支持中英日韩等多种语言互换。

先来听听效果👂🏻

我不敢苟同。我个人认为这个意大利面就应该拌42号混凝土。因为这个螺丝钉的长度，它很容易会直接影响到挖掘机的扭距，你往里砸的时候，一瞬间它就会产生大量的高能蛋白，俗称UFO。会严重影响经济的发展。照你这么说，炸鸡块要用92#汽油，毕竟我们无法用光学透镜探测苏格拉底，如果二氧化氢持续侵蚀这个机床组件，那么我们早晚要在斐波那契曲线上安装一个胶原蛋白，否则我们将无法改变蜜雪冰城与阿尔别克的叠加状态，因为众所周知爱吃鸡摩人在捕鲲的时候往往需要用氢的同位素当做诱饵，但是原子弹的新鲜程度又会直接影响到我国东南部的季风和洋流，所以说在西伯利亚地区开设农学院显然是不合理的。

(混凝土.wav)

烩面是一种荤、素、汤、菜、饭兼而有之的美食，该菜品以优质高筋面粉为原料，辅以高汤及多种配菜，类似宽面条，以味道鲜美，汤好面筋，经济实惠，营养丰富，享誉中原，遍及全国。有羊肉烩面、三鲜烩面、五鲜烩面等多种类型，是河南三大小吃之一

(烩面.wav)

努力的结果，不是要鹤立鸡群，而是要离开鸡群。

（努力.wav）

快速上手

有两种方式：一种是直接生成，不需要参考音频。第二种是上传一段音频参考进行生成。

第一种方式：

文本框输入你要生成的文本

然后点击生成

等待一会儿，可以看到生成好的音频

(大家好，我是嘟嘟欢迎来到我的频道.wav)

但这种方式生成的音色是随机的。音色取决于下面的这个种子参数。

默认是0，表示随机，你可以修改任何数值，尝试不同的音色。

第二种方式

第二种需要提前准备好一段音频，保证音频声音干净无杂音，长度5-30秒就可以，不需要太长。

还是先输入你需要合成的音频。我这里偷个懒，还是用刚才的句子。

点击下方的参考音频

将准备好的音频拖拽进去

参考文本这里填写你参考音频里的文案。这一步可选，如果不填，会自动识别。

然后点击生成。

生成效果

(大家好我是嘟嘟，克隆版本.wav)

📢上传参考音频二次生成后，会遇到'list' object has no attribute 'strip'这个问题。

解决方法是关闭使用内存缓存这个选项。

关于微调

我把fishspeech部署后微调试了半天，各种报错。最后一看，结果是1.5版本暂不支持微调，官方说要等几天…

那咱们就期待一波…

配置要求

WIN

WindowsN卡推荐4G显存

如果整合包运行报错，需要安装cuda12.4

https://developer.nvidia.com/cuda-12-4-0-download-archive

MAC

MAC Apple Silicon M1/M2/M3/M4 芯片

推荐4G内存以上

整合包获取

👇🏻👇🏻👇🏻下方下方下方👇🏻👇🏻👇🏻

夸夸夸盘：
https://pan.quark.cn/s/d841cf67ccc7

度度度盘:
https://pan.baidu.com/s/1ZRz94SEV6Zqkk2yI7kA__w?pwd=gxxk

制作不易，如果本文对您有帮助，还请点个免费的赞或在看！感谢您的阅读！

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。