IT博客汇 | TTS和VITS各自需要的训练时间参考

TTS和VITS各自需要的训练时间参考

tiandi发表于 2024-04-08 01:18:32

一，主要流程

数据集整理->搭建环境->训练数据->推理结果

二，数据集的获取和整理

整理干净的同一情绪下的人声，20-30分钟，切割成3s~10s. 转换音频格式 (1天时间)
数据集整理是一次性的工作

三, 搭建环境

这里分两种,一种是TTS（文本转语音），另一种是VITS（语音转语音），顺利的话，都大约需要1小时，每次操作都需要先搭建开发环境。

四，训练数据

至少1天30000步以上，训练好的模型，下次直接可用。TTS和VITS需要分别训练不同的模型，可以理解为一次性的工作。

五，推理结果

每次推理，需要先搭建环境，加载训练模型，TTS稍微简单点，约为1-2小时，只要准备要说的文字即可，但可能AI说话情绪比较平。VITS约为3-4小时，需要准备要说的话的人声，AI语音会参照该人声去生成，但有时候发音会不太准。AI生成语音会有长度限制，超过2分钟可能会暴显卡，只能分别生成两个1分钟的，再用其他工具合并语音，会需要额外的时间来处理。

文章评分1次，平均分5.0：★★★★★

TTS和VITS各自需要的训练时间参考

一， 主要流程

二， 数据集的获取和整理

三, 搭建环境

四， 训练数据

五， 推理结果

一，主要流程

二，数据集的获取和整理

四，训练数据

五，推理结果