Prepare WMT'17 Datasets · google/seq2seq#21

(3 commenti) (0 reazioni) (0 assegnatari)Python (1329 fork)batch import

datahelp wanted

Metriche repository

We should prepare datasets for All WMT'17 language pairs. This is also a change to try out google/sentencepiece as a preprocessor.

Each dataset should come in different configurations, i.e. different vocabulary sizes and also have a character-level version.

Together with the raw data files we also need the script that was used for the process.

Direzione di ricerca: Esamina gli script di preparazione dei dati esistenti nel repository per comprendere il formato previsto. Per ogni coppia linguistica di WMT'17, scarica i dati grezzi, quindi applica la tokenizzazione sentencepiece con dimensioni del vocabolario variabili (ad es. 8k, 16k, 32k) e crea anche una versione a livello di carattere. Lo script dovrebbe essere riutilizzabile e salvato insieme ai dati elaborati. Fai riferimento alla pagina del task WMT17 per le coppie linguistiche esatte e le fonti dei dati.
Tech stack: pythontensorflow
Dominio: datamachine learning
Tipo issue: Funzionalità
Difficoltà: 3
Tempo stimato: 3-5 giorni
Stato attività: Datata
Chiarezza: Chiara
Prerequisiti: PythonTensorFlowData preprocessingSentencePiece
Adatta ai principianti: 40