support for 4bit quantization from transfomer library. · lm-sys/FastChat#1798

(7 commentaires) (2 réactions) (0 assignés)Python (4 736 forks)batch import

enhancementgood first issue

Métriques du dépôt

Loading a vicuna13B using 4bit quantization from the transformers library is possible load_in_4bit. How difficult could be for Fastach to support it?

Direction de recherche: Étudiez comment FastChat charge actuellement les modèles (par exemple dans model worker.py) et reproduisez le paramètre load in 4bit de la bibliothèque transformers. Consultez la documentation de quantification de transformers liée dans l'issue pour comprendre l'API. Vérifiez les commentaires existants pour toute information ou blocage. Implémentez le paramètre dans le pipeline de chargement du modèle, en assurant la compatibilité avec l'infrastructure de service de modèle existante.
Stack technique: pythonpytorch
Domaine: backend
Type d'issue: Fonctionnalité
Difficulté: 2
Temps estimé: 1-3 heures
Statut d'activité: Active
Clarté: Claire
Prérequis: PythonPyTorchTransformers
Accessibilité débutant: 60