首页 » AI语音 » TTS和VITS各自需要的训练时间参考

TTS和VITS各自需要的训练时间参考

1082 0

一, 主要流程

数据集整理->搭建环境->训练数据->推理结果

二, 数据集的获取和整理

  1. 整理干净的同一情绪下的人声,20-30分钟,切割成3s~10s. 转换音频格式 (1天时间)
  2. 数据集整理是一次性的工作

三,  搭建环境

这里分两种,一种是TTS(文本转语音),另一种是VITS(语音转语音),顺利的话,都大约需要1小时,每次操作都需要先搭建开发环境。

四,  训练数据

至少1天30000步以上,训练好的模型,下次直接可用。TTS和VITS需要分别训练不同的模型,可以理解为一次性的工作。

五,  推理结果

每次推理,需要先搭建环境,加载训练模型,TTS稍微简单点,约为1-2小时,只要准备要说的文字即可,但可能AI说话情绪比较平。VITS约为3-4小时,需要准备要说的话的人声,AI语音会参照该人声去生成,但有时候发音会不太准。AI生成语音会有长度限制,超过2分钟可能会暴显卡,只能分别生成两个1分钟的,再用其他工具合并语音,会需要额外的时间来处理。

文章评分1次,平均分5.0

本文原始地址:https://www.tiandiyoyo.com/2024/04/tts%e5%92%8cvits%e5%90%84%e8%87%aa%e9%9c%80%e8%a6%81%e7%9a%84%e8%ae%ad%e7%bb%83%e6%97%b6%e9%97%b4%e5%8f%82%e8%80%83/
本站所有文章,除了特别注明外,均为本站原创,转载请注明出处来自www.tiandiyoyo.com

您可能还会对以下文章感兴趣:

    没有相关的文章

评论前先开启评论开关: