数据集整理->搭建环境->训练数据->推理结果
这里分两种,一种是TTS(文本转语音),另一种是VITS(语音转语音),顺利的话,都大约需要1小时,每次操作都需要先搭建开发环境。
至少1天30000步以上,训练好的模型,下次直接可用。TTS和VITS需要分别训练不同的模型,可以理解为一次性的工作。
每次推理,需要先搭建环境,加载训练模型,TTS稍微简单点,约为1-2小时,只要准备要说的文字即可,但可能AI说话情绪比较平。VITS约为3-4小时,需要准备要说的话的人声,AI语音会参照该人声去生成,但有时候发音会不太准。AI生成语音会有长度限制,超过2分钟可能会暴显卡,只能分别生成两个1分钟的,再用其他工具合并语音,会需要额外的时间来处理。