VITS_fast_finetune 语音模型一键训练整合包

脆脆鲨 发表于 2024-8-28 11:01:47

VITS模型介绍
   VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）是一种语音合成方法，它使用预先训练好的语音编码器 (vocoder声码器) 将文本转化为语音。

   VITS 的工作流程如下：

   （1）将文本输入 VITS 系统，系统会将文本转化为发音规则。

   （2）将发音规则输入预先训练好的语音编码器 (vocoder)，vocoder 会根据发音规则生成语音信号的特征表示。

   （3）将语音信号的特征表示输入预先训练好的语音合成模型，语音合成模型会根据特征表示生成合成语音。

   VITS 的优点是生成的语音质量较高，能够生成流畅的语音。但是，VITS 的缺点是需要大量的训练语料来训练 vocoder 和语音合成模型，同时需要较复杂的训练流程。

   论文链接：论文地址

2 VITS-fast-fine-tuning介绍
   VITS-fast-fine-tuning是在原始VITS（VITS源码）基础上开发出的一站式多speaker训练的傻瓜式版本，简单易用，可以基于VITS-fast-fine-tuning半小时内无需标注训练任意角色的语音，并提供了基础的预训练模型，可以在预训练模型上进行二次训练，实现任意角色的语音生成。

   代码地址如下：VITS-fast-fine-tuning源码

   训练步骤如下：

   （1）准备预训练数据，按照制定格式和路径进行存放，数据无需标注

   （2）对数据进行预处理，采用whisper模型进行语音提取和切分，形成标注数据。

            whisper的内容详见：whisper

   （3）使用提出的带标注的数据进行语音合成训练

页: [1]

YOLO人工智能图像识别交流论坛's Archiver

VITS_fast_finetune 语音模型一键训练整合包