Prepare WMT'17 Datasets · google/seq2seq#21

(3 Kommentare) (0 Reaktionen) (0 zugewiesene Personen)Python (1.329 Forks)batch import

datahelp wanted

Repository-Metriken

We should prepare datasets for All WMT'17 language pairs. This is also a change to try out google/sentencepiece as a preprocessor.

Each dataset should come in different configurations, i.e. different vocabulary sizes and also have a character-level version.

Together with the raw data files we also need the script that was used for the process.

Research-Richtung: Untersuchen Sie die Links zum WMT'17 Datensatz, implementieren Sie die Sentencepiece Tokenisierung und erstellen Sie Datenvorverarbeitungsskripte für jedes Sprachpaar mit konfigurierbaren Vokabulargrößen und Zeichenebene Versionen.
Tech Stack: pythontensorflow
Domain: backenddatamachine learning
Issue Type: Funktion
Schwierigkeit: 2
Geschätzte Zeit: Halber Tag
Aktivitätsstatus: Veraltet
Klarheit: Klar
Voraussetzungen: PythonTensorFlow
Einsteigerfreundlichkeit: 75