Vocab vectors using complete pretrained-embedding? · pytorch/text#446

(6 Kommentare) (0 Reaktionen) (0 zugewiesene Personen)Python (822 Forks)batch import

enhancementhelp wanted

Repository-Metriken

Stars: (3.396 Stars)
PR-Merge-Metriken: (Keine gemergten PRs in 30 T)

Beschreibung

I am new to pytorch and nlp. I have a question when I tried to build a model.

Since my training dataset is not so big, the size of its vocab is relatively small (around 5000). However, I want to deal with any other user input which could be out of this vocabulary.

The problem is, in the model I trained, the embedding layer's weight is based on the vectors of the field, not the whole word2vec pretrained embeddings. So I cannot modified it after the training is done.

I wondered is there any better approach to do it? Thanks in advance!

Contributor Guide

Research-Richtung: Erkunde, wie die Einbettungsschicht erweitert werden kann, um OOV Token einzubeziehen, indem während der Inferenz die vollständige, vortrainierte Einbettungsmatrix nachgeschlagen wird, möglicherweise unter Verwendung einer separaten Zuordnung für unbekannte Wörter.
Tech Stack: pythonpytorch
Domain: machine learning
Issue Type: Recherche
Schwierigkeit: 1
Geschätzte Zeit: Unter 1 Stunde
Aktivitätsstatus: Aktiv
Klarheit: Klar
Voraussetzungen: PythonPyTorch
Einsteigerfreundlichkeit: 40

Repository-Metriken

Beschreibung

Contributor Guide

Erhalte frische Easy Issues per E-Mail.