Is same base model used for MMS-ASR and MMS-TTS (like AudioPaLM)? · facebookresearch/fairseq#5221

(1 commentaire) (0 réactions) (0 assignés)Python (6 224 forks)batch import

enhancementhelp wantedneeds triage

Métriques du dépôt

Stars: (29 107 stars)
Métriques de merge PR: (Aucune PR mergée en 30 j)

Description

Google introduce AudioPaLM, a large language model for speech understanding and generation. AudioPaLM fuses text-based and speech-based language models, PaLM-2 [Anil et al., 2023] and AudioLM [Borsos et al., 2022], into a unified multimodal architecture that can process and generate text and speech with applications including speech recognition and speech-to-speech translation.

How about the MMS? I found fine-tuning MMS ASR based on pretrained base model mms-1b, but I can not find for TTS. Is the same base model mms-1b used for MMS-TTS? How can I fine-tuning or add new language for TTS?

Guide contributeur

Direction de recherche: La question demande si le même modèle de base (mms 1b) est utilisé à la fois pour l'ASR et le TTS dans MMS. Pour y répondre, consultez l'article MMS (https://arxiv.org/abs/2305.13516) et la publication du modèle dans le dépôt. Vérifiez la documentation de fairseq pour les scripts de réglage fin TTS. Recherchez d'éventuels points de contrôle ou configurations TTS séparés. S'il n'en existe pas, notez que la prise en charge TTS n'est peut être pas disponible publiquement. Comparez avec l'architecture AudioPaLM mentionnée dans la question.
Stack technique: pythonpytorch
Domaine: aimachine learning
Type d'issue: Recherche
Difficulté: 3
Temps estimé: Une demi journée
Statut d'activité: Active
Clarté: Claire
Prérequis: PythonPyTorch
Accessibilité débutant: 45

Métriques du dépôt

Description

Guide contributeur

Recevez de nouvelles issues Easy par e-mail.