Is same base model used for MMS-ASR and MMS-TTS (like AudioPaLM)? · facebookresearch/fairseq#5221

(1 comment) (0 reactions) (0 assignees)Python (6.224 forks)batch import

enhancementhelp wantedneeds triage

Métricas do repositório

Stars: (29.107 stars)
Métricas de merge de PR: (Nenhuma PRs mesclada em 30d)

Description

Google introduce AudioPaLM, a large language model for speech understanding and generation. AudioPaLM fuses text-based and speech-based language models, PaLM-2 [Anil et al., 2023] and AudioLM [Borsos et al., 2022], into a unified multimodal architecture that can process and generate text and speech with applications including speech recognition and speech-to-speech translation.

How about the MMS? I found fine-tuning MMS ASR based on pretrained base model mms-1b, but I can not find for TTS. Is the same base model mms-1b used for MMS-TTS? How can I fine-tuning or add new language for TTS?

Guia do colaborador

Direção de pesquisa: A questão pergunta se o mesmo modelo base (mms 1b) é usado tanto para ASR quanto para TTS no MMS. Para responder, revise o artigo do MMS (https://arxiv.org/abs/2305.13516) e o lançamento do modelo no repositório. Verifique a documentação do fairseq em busca de scripts de ajuste fino para TTS. Procure por quaisquer checkpoints ou configurações de TTS separados. Se não existirem, observe que o suporte a TTS pode não estar disponível publicamente. Compare com a arquitetura AudioPaLM mencionada na questão.
Pilha de tecnologia: pythonpytorch
Domain: aimachine learning
Tipo Issue: Pesquisa
Difficulty: 3
Tempo estimado: Meio dia
Status da atividade: Ativo
Clarity: Claro
Prerequisites: PythonPyTorch
Simpatia para novatos: 45

Métricas do repositório

Description

Guia do colaborador

Receba issues Easy novas por email.