FishSpeech1.5,语音克隆,TTS,多语言,零样本推理(WIN/MAC)

语音克隆项目FishSpeech1.5更新咯~类似之前我分享的例如F5-TTS、MaskGCT等声音克隆项目,FishSpeech只需要5-10秒的语音样本,就能高度还原一个人的声音特征,而且支持中英日韩等多种语言互换。

先来听听效果👂🏻

我不敢苟同。 我个人认为这个意大利面就应该拌42号混凝土。因为这个螺丝钉的长度,它很容易会直接影响到挖掘机的扭距,你往里砸的时候,一瞬间它就会产生大量的高能蛋白,俗称UFO。会严重影响经济的发展。 照你这么说,炸鸡块要用92#汽油,毕竟我们无法用光学透镜探测苏格拉底,如果二氧化氢持续侵蚀这个机床组件,那么我们早晚要在斐波那契曲线上安装一个胶原蛋白,否则我们将无法改变蜜雪冰城与阿尔别克的叠加状态,因为众所周知爱吃鸡摩人在捕鲲的时候往往需要用氢的同位素当做诱饵,但是原子弹的新鲜程度又会直接影响到我国东南部的季风和洋流,所以说在西伯利亚地区开设农学院显然是不合理的。

(混凝土.wav)

烩面是一种荤、素、汤、菜、饭兼而有之的美食,该菜品以优质高筋面粉为原料,辅以高汤及多种配菜,类似宽面条,以味道鲜美,汤好面筋,经济实惠,营养丰富,享誉中原,遍及全国。有羊肉烩面、三鲜烩面、五鲜烩面等多种类型,是河南三大小吃之一

(烩面.wav)

努力的结果,不是要鹤立鸡群,而是要离开鸡群。

(努力.wav)

快速上手

有两种方式:一种是直接生成,不需要参考音频。第二种是上传一段音频参考进行生成。

第一种方式:

文本框输入你要生成的文本

然后点击生成

等待一会儿,可以看到生成好的音频

(大家好,我是嘟嘟欢迎来到我的频道.wav)

但这种方式生成的音色是随机的。音色取决于下面的这个种子参数。

默认是0,表示随机,你可以修改任何数值,尝试不同的音色。

第二种方式

第二种需要提前准备好一段音频,保证音频声音干净无杂音,长度5-30秒就可以,不需要太长。

还是先输入你需要合成的音频。我这里偷个懒,还是用刚才的句子。

点击下方的参考音频

将准备好的音频拖拽进去

参考文本这里填写你参考音频里的文案。这一步可选,如果不填,会自动识别。

然后点击生成。

生成效果

(大家好我是嘟嘟,克隆版本.wav)

📢上传参考音频二次生成后,会遇到'list' object has no attribute 'strip'这个问题。

解决方法是关闭使用内存缓存这个选项。

关于微调

我把fishspeech部署后微调试了半天,各种报错。最后一看,结果是1.5版本暂不支持微调,官方说要等几天…

那咱们就期待一波…

配置要求

WIN

WindowsN卡推荐4G显存

如果整合包运行报错,需要安装cuda12.4

https://developer.nvidia.com/cuda-12-4-0-download-archive

MAC

MAC Apple Silicon M1/M2/M3/M4 芯片

推荐4G内存以上

整合包获取

👇🏻👇🏻👇🏻下方下方下方👇🏻👇🏻👇🏻

夸夸夸盘:
https://pan.quark.cn/s/d841cf67ccc7

度度度盘:
https://pan.baidu.com/s/1ZRz94SEV6Zqkk2yI7kA__w?pwd=gxxk

制作不易,如果本文对您有帮助,还请点个免费的赞或在看!感谢您的阅读!

### 使用 PaddleSpeech 实现语音克隆 #### 安装依赖项 为了使用 PaddleSpeech 进行语音克隆,首先需要安装必要的 Python 包。可以通过 pip 来完成这一操作。 ```bash pip install paddlespeech ``` #### 准备环境 确保已经配置好 Python 环境并成功安装了 `paddlespeech` 库之后,就可以开始准备数据集以及设置参数来训练或测试模型。 #### 加载预训练模型 PaddleSpeech 提供了一系列预训练好的模型可以直接加载使用。对于语音克隆任务来说,通常会涉及到 TTS (Text-to-Speech) 和 VAE (Variational Autoencoder) 或者 Tacotron 类型的声码器模型组合。 ```python from paddlespeech.tts.utils import get_am_inference_model, get_vocoder_inference_model am_name = 'fastspeech2' voc_name = 'pwg' # 获取AM(Acoustic Model)推理模型实例 am_infer_model = get_am_inference_model(am_name) # 获取VOC(Voice Converter)推理模型实例 voc_infer_model = get_vocator_inference_model(voc_name) ``` #### 数据处理与特征提取 在实际应用中,可能还需要对输入文本进行一些简单的清理工作,并将其转换成适合喂给TTS系统的格式;同时也需准备好目标说话人的音频样本以便后续用于风格迁移等功能。 #### 执行语音合成 当一切就绪后,便可通过调用相应的方法来进行最终的声音生成过程: ```python import numpy as np from scipy.io.wavfile import write text = "这是一段用来演示的文字内容" audio_output_path = "./output_audio.wav" mel_outputs, mel_lengths = am_infer_model.infer(text=text) wav_tensors = voc_infer_model.infer(mel=mel_outputs)[0] # 将张量保存为WAV文件 write(audio_output_path, rate=22050, data=np.array(wav_tensors).astype(np.int16)) print(f'Audio saved at {audio_output_path}') ``` 以上就是利用 PaddleSpeech 实现基本语音克隆功能的大致流程[^2]。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值