手机版 | 网站导航
观察家网 > 消费 >

RVC小白教程-风妈胎教版

哔哩哔哩 | 2023-07-08 01:18:36

风妈的效果展示:

第一期展示:【交作业】巨赞的RVC人声模型效果,炼丹2个月成品展示!!!_哔哩哔哩_bilibili


(资料图片)

第二期展示:【交作业】挑花眼的RVC女声模型库,时隔一个月模型大更新!!

第三期展示:【RVC甜妹模型展示】糖果vs布甜?谁是你心中最甜的萌妹音?(直播回放无修音)

第四期展示:【交作业】7月RVC模型库,三款模型已开源,十四款上架模型大换血~!_哔哩哔哩_bilibili

Notion完整版图文更全看这里 ,更新更频繁:

/rvc-ai-9dada6c1293145079166f2601431fe90?pvs=4

一.安装包选择

RVC是个开源软件,咸鱼和淘宝直接卖软件的都是坑货,开发者B站up:花儿不哭,实时更新的:

1.风仔把官方完整的包上传到百度网盘啦~大家自取!

百度网盘链接: /s/1dN_gYZaB-5oBKdI1_MQa2w?pwd=5hnw 提取码: 5hnw夸克网盘链接:/s/408171a23723 无需提取码

实时变声下载体积最小的版本FasterRVC-RealTime-fix_【】

需要注意的是:fasterrvc版本目前处于内测,内置可软kiki音频工作室的三款开源模型(可软kiki和关关,分别对应暖,细腻,夹三种特质。

2.入梦大大的一键包,非常适合萌新快速跳线使用,也是跟随花儿不哭原版的版本迭代的。

资源站链接:/archives/2476/b站教程链接:/video/BV1vh4y1X7gH/

二.配置参考

cpu 13600kf  32gb 的内存+4070ti 的显卡,声卡 icon micu 五代,麦克风 babybootle-u87.这套配置除了麦克风,都属于高端性价比款,质量不错但不那么贵的选择~扣紧每一个钢镚!

如果需要高强度炼丹,建议直接拉满或者直接云端炼丹~

麦克风的话,风仔用的比较贵哈。

目前这个软件,需要至少>=4核CPU,>=GTX1060的N卡

通常情况下,实时变声的效果好坏主要取决于CPU的性能,和显卡无关。显卡的品质决定炼丹(训练模型)的速度而已。

10代以上的I5便可流畅运行RVC+CPU占用不高的。

影响延迟的硬件:CPU

影响音质的硬件:麦克风,声卡以及你的收音环境

独立声卡和麦克风,能够较好的控制底噪杂音。收音比较好的耳麦效果也是不错的,可以先用虚拟声卡测试下,在考虑升级硬件。

三.安装及设置

下载最新的fastrvc后解压到本地,不包含中文的路径中。

链接: /s/1dN_gYZaB-5oBKdI1_MQa2w?pwd=5hnw 提取码: 5hnw

也可以使用入梦大大的安装包,可以快速设置输入输出通道。

寻找目录中的“go-realtime-gui”图标,打开后是如下这个界面:

还会跳出一个黑色的命令行窗口,请无视它。

上图中需要填写如下几个:

文件,软件包内自带3个模型,任选一个即可,选择对于的pth和index

同上;

四.输入输出通道设置(请对号入座)

1.虚拟声卡,不走机架的安装使用方法:voicemeeter安装包链接:

链接: /s/1qcpyw0xo7zkX7_ILqfzM7g?pwd=d9ee 提取码: d9ee

2.如果是独立声卡,走机架进行设置:

这个调试略复杂,也是目前阻碍大部分小白们成功搞事情的关键点,up也是在大佬的帮助下搞定的,如果自己实在搞不定,可以有偿找高手调下哈~

五.参数面板设置

1.响应阈值

尽量拉满-60,如果有比较大的环境噪音,可以通过nvidia broadcast的ai降噪处理噪音,独立声卡可以接入机架的降噪插件,但是要注意如果在输入端进行降噪,可能会出现吞字(也就是声音无法很好的识别),一般建议输入端稍微加点降噪,输出端也稍微加点降噪,这样实际效果会好点。请不要使用RVC软件自带的输入降噪和输出降噪,那个一刀切的比较厉害。

如果打游戏同时开英伟达降噪,游戏对显存要求比较高的话,尽量8gb以上,不然打游戏都会卡的。需要注意的是:开了nvidia broadcast后,音色会发闷些,无法达到完美的效果。

2.音调设置

数值代表的意义:越高越女性化,越低越男性化。

男转女一般在10~12,在这附近左右调整,分别可以变粗或变细,选好之后就不要动了。

女转男一般在-12~-10左右。

rate

index=0可以大幅度降低CPU占用率,和index比例无关和1的占用率是一样的。

左边是接近底模的音色,右边是接近模型的音色。如果调高不影响口齿,可以略微调高,一般都是可以的。如果电脑配置不太好,直接拉到0,可以更流畅。如果没有要求必须和模型音色有多像,则调0;调高可以拉进和模型目标音色的相似度,但CPU占用和延迟会略微增加一点。

4.音高算法

不好的音高算法会经常出现哑声的情况pm对应0416版本。延迟最低CPU占用最小。理论上唱歌效果可以,但说话效果对嘈杂环境不太好;harvest:最好的音高算法,CPU占用较大,通过调高右侧"harvest进程数"降低延迟;crepe:效果接近harvest的音高算法,稍吃GPU。

5**.采样长度(决定变声延迟)**

尽量调低一些,只要不卡,但是需要注意如果调太低,cpu占用会很高,如果再打游戏啥的,cpu可能会吃不消。调得越高,变声结果距离录音时间点越远;调得太低,假如最下面推理时间经常大于变声延迟,会造成"机关枪"卡顿情况,应调整其他参数降低延迟或调高该参数。

进程数(核心内容)

进程数会音响音质,如果对音质有要求,进程数不建议大于4。

如果index=0,进程数不会太影响CPU占用率。

如果index不等于0,则CPU占用率会随着进程数几何倍数增加。

以13700K为例,index=0,8进程,采样,低延迟CPU占用不到30%,但是音质会略微有嘶哑感

index=,采样,8进程 cpu占用100% ,4进程占用50%。

决定音高算法最高占用多少系统线程(最多吃多少比例CPU)如果有其他任务也要吃CPU,会影响你的工作(比如打游戏),则不宜拉太高;调低了推理延迟会增大,如果推理延迟不能满足需求则应拉高采样长度,或者更换音高算法;如果推理延迟已经能满足变声延迟的需求,则建议该选项进行微调,越低越好。

7**.淡入淡出长度**

这个参数拉多拉少影响不大,可以根据感觉来。

8**.额外推理时长**

如硬件条件允许建议拉满,建议至少要留1s,效果越长越好,调高了咬字识别更好。会影响延迟。

9**.推荐设置**

比较适中选择可以根据下图设置,再微调indexrate和采样长度。参数设置不唯一,在使用模型的过程中可以不断微调,这也是种乐趣~(ง •_•)ง

六.炼丹步骤详解

第一步:打开(在实时变声旁边)进入炼丹炉;

第二步:等待网页自动打开后点击“训练

第三步:填写红框框中的内容

红框框图

1.实验名:注意英文格式哟~比如这里填写:”superkeruan“,炼一个超级可软模型~2.输入文件夹路径:注意要把文件夹放在桌面上,且保持纯英文路径,如果不在桌面,非常容易无法读取并报错!!!

素材长度建议:至少30分钟,无底噪的无损音频(wav后缀)文件,且你用来干啥的,就用干啥的素材,比如我要用来唱歌,那么素材尽量都是唱歌的素材,这样契合度更高~

风仔建议这个文件夹里的文件提前用“格式工厂”进行切片处理,切成10秒一段,并且是wav的无损音频格式,这样方便比让rvc自己切跑得更快速~

格式工厂切片步骤图

3.依次点击处理数据,特征提取后设置step3的红框部分。

4.第三步中的参数说明~

保存频率:建议拉满50(拉太低硬盘不够用哟~如果拉很低,炼1个丹就需要几十上百gb的容量存放)

总训练轮数:200-500轮,低于100轮效果一般不太行,除非是v2底模,超过500轮如果素材数量不够多,往往白费力气~

每张显卡的bitch-size:这个根据显卡的显存设置,风仔12gb显存,炼丹只敢开9gb,不然啥都干不了,一旦爆显存,丹就白炼了~

最后点击:一件训练,当个甩手掌柜吧~

第四步:验收环节:

最终成品包含3个文件,分别是pth文件,index文件,npy文件。pth文件仔根目录下的weights中,index和npy文件则在根目录的logs—supersoft(实验名文件夹)下。

(ง •_•)ง好好保存,每一个成品都是显卡努力的结晶~文件请保持英文目录~方便每次使用~

七.融丹步骤

1.为什么需要融丹?

本质上,rvc比sovits的优越点,就在于底模和自炼模型的融合,在较低成本(素材和轮数)上保持一个较好的效果。

融丹一方面可以让模型的声音的音域更加的宽广,比如一个偏低沉的模型和一个偏嘹亮的模型,融合后就能生成一个两边都能get到的模型。另一方面,也可以让音色具有多重属性,比如可软的暖和元气属性,以及kiki的细腻和委婉。融合后,会同时感觉到这些特质,可能有些比较木耳的同学,不能一下子听出来,但是当同时听到这些声音的时候,就会产生比较明显的对比。

演示视频:【顶级RVC实时变声模型展示】最暖亮和最细柔的少御音,可软和KiKi的不同配方展示~_哔哩哔哩_bilibili

需要注意的是,融丹不是百分之百会提升,经常会出现古神低语的现象,或者融合后反而音色模糊的情况,需要多次抽卡尝试~

2.融丹步骤肢解版(ง •_•)ง

打开炼丹炉(根目录下的),点击ckpt处理,填写如图内容。

a.填写标号1和2处的文件路径,请注意,包含文件名称和后缀,且不能包含中文,否则会报错

b.在标号3处选择配方,从1:9到9:1,想怎么参和都行~后续需要在推理界面,一个一个试听;

c.填写标号4处保存模型名称,注意不带后缀!

d.点击标号5处的融合按钮。

最终标号6处,输出结果为成功(ง •_•)ง,文件自动生成在weights目录内,刷新推理页面的音色,即可在下拉页面中查看这个模型,请严格按照以上步骤,基本不会报错~

八.常见问题Q&A

1.为什么模型在跑了发不出声、有回音、复读机、或者自己能听到变声其他人听不见

基本都是跳线问题,按照输入输出通道设置重新检查一遍,或寻求大佬帮助。

2.说话好卡,是不是模型有问题?

实时卡的原因一般有几种:

模型问题(素材太少缺字缺音色)

响应阈值太高(轻的声音进不来)建议都拉满-60

麦克风输入音量太小(设备输入音量尽量拉到最大,如果觉得吵可以调小输出)。

模型问题可以用推理来排除,如果推理效果正常即可排除。

3.qq说话音条带电,怎么回事?

QQ音条老问题,推荐解决方式:

·虚拟声卡重启后再试;

·其他建议同时打开常见语音软件(YY,TT等)频道自由麦;

4.同样的模型其他人很好听,我就很奇怪

变声除了音色以外,语气和流畅度也是很重要的。因为监听有延迟,刚使用可能会有点不适应,可以调小监听提升流畅度。语气问题emm…..(大老粗语气变软妹还是有点难度

5.炼丹后没有index文件怎么办?

首先重新填写之前炼丹时相同的数据地址,然后依次操作

①点击处理数据

②点击特征提取

③点击训练特征索引

这是就会很快的提取出来一份index文件,出现在你的logs文件夹下的对应实验名下。

九.待更新列表

已经攒钱买到生产力显卡了,感谢各位大佬的支持~

想入手一个精品模型和代炼丹的大佬,可以联系qq501212576,本up在线接单哟~

标签:

  • 标签:中国观察家网,商业门户网站,新闻,专题,财经,新媒体,焦点,排行,教育,热点,行业,消费,互联网,科技,国际,文化,时事,社会,国内,健康,产业资讯,房产,体育。

相关推荐