Prepare WMT'17 Datasets · google/seq2seq#21

(3 commentaires) (0 réactions) (0 assignés)Python (1 329 forks)batch import

datahelp wanted

Métriques du dépôt

We should prepare datasets for All WMT'17 language pairs. This is also a change to try out google/sentencepiece as a preprocessor.

Each dataset should come in different configurations, i.e. different vocabulary sizes and also have a character-level version.

Together with the raw data files we also need the script that was used for the process.

Direction de recherche: Examinez les liens du jeu de données WMT'17, implémentez la tokenisation avec sentencepiece et créez des scripts de prétraitement pour chaque paire de langues avec des tailles de vocabulaire configurables et des versions au niveau des caractères.
Stack technique: pythontensorflow
Domaine: backenddatamachine learning
Type d'issue: Fonctionnalité
Difficulté: 2
Temps estimé: Une demi journée
Statut d'activité: Ancienne
Clarté: Claire
Prérequis: PythonTensorFlow
Accessibilité débutant: 75