Is same base model used for MMS-ASR and MMS-TTS (like AudioPaLM)? · facebookresearch/fairseq#5221

(1 Kommentar) (0 Reaktionen) (0 zugewiesene Personen)Python (6.224 Forks)batch import

enhancementhelp wantedneeds triage

Repository-Metriken

Stars: (29.107 Stars)
PR-Merge-Metriken: (Keine gemergten PRs in 30 T)

Beschreibung

Google introduce AudioPaLM, a large language model for speech understanding and generation. AudioPaLM fuses text-based and speech-based language models, PaLM-2 [Anil et al., 2023] and AudioLM [Borsos et al., 2022], into a unified multimodal architecture that can process and generate text and speech with applications including speech recognition and speech-to-speech translation.

How about the MMS? I found fine-tuning MMS ASR based on pretrained base model mms-1b, but I can not find for TTS. Is the same base model mms-1b used for MMS-TTS? How can I fine-tuning or add new language for TTS?

Contributor Guide

Research-Richtung: Das Issue fragt, ob dasselbe Basismodell (mms 1b) sowohl für ASR als auch für TTS in MMS verwendet wird. Um dies zu beantworten, überprüfen Sie das MMS Papier (https://arxiv.org/abs/2305.13516) und die Modellveröffentlichung im Repository. Überprüfen Sie die fairseq Dokumentation auf TTS Fine Tuning Skripte. Suchen Sie nach separaten TTS Checkpoints oder Konfigurationen. Falls keine existieren, beachten Sie, dass die TTS Unterstützung möglicherweise nicht öffentlich verfügbar ist. Vergleichen Sie mit der im Issue erwähnten AudioPaLM Architektur.
Tech Stack: pythonpytorch
Domain: aimachine learning
Issue Type: Recherche
Schwierigkeit: 3
Geschätzte Zeit: Halber Tag
Aktivitätsstatus: Aktiv
Klarheit: Klar
Voraussetzungen: PythonPyTorch
Einsteigerfreundlichkeit: 45

Repository-Metriken

Beschreibung

Contributor Guide

Erhalte frische Easy Issues per E-Mail.