[TTS] Try to train a universial GAN Vocoder using CSMSC + LJSpeech + AISHELL3 + VCTK · PaddlePaddle/PaddleSpeech#2803

(0 comments) (1 reaction) (1 assignee)Python (1.702 forks)batch import

T2Sfeature requestgood first issue

Métricas do repositório

Stars: (9.453 stars)
Métricas de merge de PR: (Nenhuma PRs mesclada em 30d)

Description

An universial GAN Vocoder may works well for all AMs of different datasets, for example, CSMSC is a single female dataset, may generate bad wavs for mels of male speakers, cause different genders have different distribution of speech features.

Please try to train a universial GAN Vocoder using CSMSC + LJSpeech + AISHELL3 + VCTK + some other TTS datasets (if you want) with the config of CSMSC (24kHz).

LJSpeech is 22.05kHz, but you don't need to resample it yourself, cause we will resample the wavs to the sample rate setted in config file in preprocess stage ~

Guia do colaborador

Direção de pesquisa: Esta issue solicita o treinamento de um vocoder GAN universal usando múltiplos conjuntos de dados (CSMSC, LJSpeech, AISHELL3, VCTK) com a configuração CSMSC (24kHz). O responsável provavelmente está trabalhando nisso. Para começar, revise a implementação existente do vocoder GAN no PaddleSpeech, como o arquivo de configuração em examples/csmsc/tts3/conf/default.yaml. Prepare se para lidar com diferentes taxas de amostragem (LJSpeech é 22.05kHz, mas o pré processamento faz o redimensionamento). Combine os conjuntos de dados e modifique o pipeline de treinamento para suportar treinamento multi dataset. Verifique se existem PRs abertos ou branches para esta tarefa.
Pilha de tecnologia: python
Domain: machine learningai
Tipo Issue: Pesquisa
Difficulty: 4
Tempo estimado: Mais de 1 semana
Status da atividade: Bloqueado
Clarity: Claro
Prerequisites: Knowledge of TTSGAN vocoder conceptsPythonPaddleSpeech
Simpatia para novatos: 20

Métricas do repositório

Description

Guia do colaborador

Receba issues Easy novas por email.