原作者项目说明书:RVC指南
这是lz的第二个AI翻唱项目。。。
第一个跑了一天一夜但是效果不是很好。这个项目也跑了一天一夜。。。
但这个项目效果确实更出众,lz是因为数据集较多,(lz将近300段数据集,综合下来半个小时,跑了将近200步,且lz显存较小,只有4GB)比较追求高质量的效果,uu们在使用该项目时,数据集不多会很快的。
花儿不哭开源的免费的软件
原项目github发布地址:https://github.com/RVC-Boss/Retrieval-based-Voice-Conversion-WebUI
SVC全称为Singing Voice Conversion(歌声转换),{RVC、DDSP-SVC、Diffuision-SVC,Diff-SVC,So-VITS-SVC}∈SVC
RVC的全称为Retrieval-based Voice Conversion,基于检索的声音转换,一种语音转换技术。比较绕口一点的解释是:改变一段原始语音(源语音)的某些特征,使其听起来像另一个说的(目标说话人),同时保持原始语音的内容和韵律。简单一点的理解就是,AI翻唱,让目标人唱目标歌曲。
本地部署
1.下载项目
lz的环境为win11。
将项目下载到本地,解压,双击go-web
稍等一会儿会在默认浏览器弹出RVC-WebUI界面,建议使用Edge/chrome浏览器
补丁替换
lz下载的整合包为:RVC20240604Nvidia,同时下载了0128补丁,复制0128文件夹中所有文件,将其粘贴到RVC20240604Nvidia文件夹中,在弹出窗口中选择替换文件夹。
2.数据集准备
该项目和lz之前使用过的GPT-SoVITS是同一位作者,两个项目都集成了UVR5,便于使用者分离目标音源中的音乐与演唱者的音频。在lz之前的blog里详细地写了数据集的分离说明。AI语音训练——GPT-SoVITS(GSV)-CSDN博客
纯净人声获取步骤:伴奏&人声分离→和声分离→一次去混响→二次去混响→去噪音。
更多lz懒得搬了。。。
有了解到Ripx这个软件也可以去除和声等音频中的杂音,实现人声的还原,lz正在下...,uu们也可以尝试一下。
快速开始
原项目中有的简易教程
"E:\RVC\RVC20240604Nvidia\docs\小白简易教程.doc"
2.1数据集管理
实验名可以使用训练人的名称,但名称中不可以有中文。目标采样率建议保持40K,48K会有炸炉的风险(原项目作者原话)。如果不想让模型具备歌唱能力,则不需要勾选音高指导。
数据集文件夹管理
将路径粘贴,开始识别数据。此时也可以通过Console窗口查看数据导入信息。
可以随时在console窗口查看信息,所有音频信息处理完毕后console窗口会显示end preprocess。
2.2提取特征
基本上保持默认即可,多显卡用户可以研究一下红色窗口,如果对模型有其他需求,可以前去了解其他音高算法。如果只是想AI翻唱,保持勾选rmvpe_gpu即可。
console窗口或者上图的输出信息中显示all-feature-done则表明特征提取顺利地完成了。
开始训练,先设置训练总轮数,再根据总轮数设置保存频率最后根据显存数量设置batch_size。
右侧橙色框图部分可以根据自身硬盘内存数进行设置,整理好之后,一键训练即可。
点击一键训练即可开始训练模型了。
推理
变调说明
lz是声乐小白,推测大致思路应该是,男声音调较低,女声音调较高,所以男转女需要调高,女转男需要调低
男声(歌曲)→女声(训练数据集),+7,如果歌曲本身音高很高,可以+4/3
女声(歌曲)→男声(训练数据集),-7,或者-4/3
如果训练的模型比较好,检索占比可以调高一点,会更还原音色。
注意此处的音频是歌曲的干声音频。
王进喜——有条件要上,没有条件创造条件也要上。——来点鸡汤8
以上end