support for 4bit quantization from transfomer library. · lm-sys/FastChat#1798

(7 comments) (2 reactions) (0 assignees)Python (4.736 forks)batch import

enhancementgood first issue

Métricas do repositório

Loading a vicuna13B using 4bit quantization from the transformers library is possible load_in_4bit. How difficult could be for Fastach to support it?

Direção de pesquisa: Investigue como o FastChat atualmente carrega modelos (por exemplo, em model worker.py) e replique o parâmetro load in 4bit da biblioteca transformers. Revise a documentação de quantização do transformers vinculada na issue para entender a API. Verifique os comentários existentes para quaisquer insights ou bloqueios. Implemente o parâmetro no pipeline de carregamento do modelo, garantindo compatibilidade com a infraestrutura de serviço de modelo existente.
Pilha de tecnologia: pythonpytorch
Domain: backend
Tipo Issue: Funcionalidade
Difficulty: 2
Tempo estimado: 1-3 horas
Status da atividade: Ativo
Clarity: Claro
Prerequisites: PythonPyTorchTransformers
Simpatia para novatos: 60