IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    TTS和VITS各自需要的训练时间参考

    tiandi发表于 2024-04-08 01:18:32
    love 0

    一, 主要流程

    数据集整理->搭建环境->训练数据->推理结果

    二, 数据集的获取和整理

    1. 整理干净的同一情绪下的人声,20-30分钟,切割成3s~10s. 转换音频格式 (1天时间)
    2. 数据集整理是一次性的工作

    三,  搭建环境

    这里分两种,一种是TTS(文本转语音),另一种是VITS(语音转语音),顺利的话,都大约需要1小时,每次操作都需要先搭建开发环境。

    四,  训练数据

    至少1天30000步以上,训练好的模型,下次直接可用。TTS和VITS需要分别训练不同的模型,可以理解为一次性的工作。

    五,  推理结果

    每次推理,需要先搭建环境,加载训练模型,TTS稍微简单点,约为1-2小时,只要准备要说的文字即可,但可能AI说话情绪比较平。VITS约为3-4小时,需要准备要说的话的人声,AI语音会参照该人声去生成,但有时候发音会不太准。AI生成语音会有长度限制,超过2分钟可能会暴显卡,只能分别生成两个1分钟的,再用其他工具合并语音,会需要额外的时间来处理。

    文章评分1次,平均分5.0:★★★★★


沪ICP备19023445号-2号
友情链接