在colab中使用GPT-SoVITS来进行少量样本声音克隆
整个步骤分为人声分离-》降噪-》打标-》训练-》推理
一、打开colab笔记
https://colab.research.google.com/github/RVC-Boss/GPT-SoVITS/blob/main/colab_webui.ipynb
然后点击全部运行
成功后出现url地址
打开后看到地址如下:
二、人声分离
先进行人声分离
笔记中会出现一个人声分离的url地址
打开后
我们用歌曲来分离人声和背景
在换个模型把声音处理干净一些,目录选择/content/GPT-SoVITS/output/uvr5_opt
上面这个文件就是我们最终想要的,其他的全删掉
三、切割音频
下面来切割音频,将长音频切割成小音频
结束后我们在输出目录中可以看到很多小的片段
然后点击降噪
看到输出的降噪后的文件
四、打标
接下来as打标r处理,这个有点耗时,多等等,打标就是将音频内容进行文字标注,比如音频你好,文本就是中文你好
看到任务完成
查看目录中有自动打标的文件了
人工核对
勾选上面的,控制台就会出现人工核对的url地址
打开后就可以核对文字与语音是否匹配
五、模型训练
下面就是训练模型了
依次点击这三个按钮,必须等上一个运行结束不出错后
开始训练
依次点击开始训练
控制台显示训练过程
六、推理
推理,一次点击tab标签,勾选open-tts-webui
选择参考声音和声音的文本内容,已经训练好的模型,点击按钮即可克隆声音了。
声音好了后就可以下载了。
训练好的模型位置
可以下载或拷贝到你的google云盘
github地址:https://github.com/RVC-Boss/GPT-SoVITS
网友评论0