support for 4bit quantization from transfomer library. · lm-sys/FastChat#1798

(7 Kommentare) (2 Reaktionen) (0 zugewiesene Personen)Python (4.736 Forks)batch import

enhancementgood first issue

Repository-Metriken

Loading a vicuna13B using 4bit quantization from the transformers library is possible load_in_4bit. How difficult could be for Fastach to support it?

Research-Richtung: Untersuche, wie FastChat derzeit Modelle lädt (z. B. in model worker.py), und repliziere den load in 4bit Parameter aus der transformers Bibliothek. Überprüfe die in der Issue verlinkte transformers Quantisierungsdokumentation, um die API zu verstehen. Prüfe vorhandene Kommentare auf Erkenntnisse oder Hindernisse. Implementiere den Parameter in der Modellladepipeline und stelle die Kompatibilität mit der bestehenden Modellserving Infrastruktur sicher.
Tech Stack: pythonpytorch
Domain: backend
Issue Type: Funktion
Schwierigkeit: 2
Geschätzte Zeit: 1-3 Stunden
Aktivitätsstatus: Aktiv
Klarheit: Klar
Voraussetzungen: PythonPyTorchTransformers
Einsteigerfreundlichkeit: 60