support for 4bit quantization from transfomer library. · lm-sys/FastChat#1798 | Good First Issue

(7 留言) (2 反應) (0 負責人)Python (4,736 fork)batch import

enhancementgood first issue

倉庫指標

Star: (38,959 star)
PR 合併指標: (30 天內沒有已合併 PR)

描述

Loading a vicuna13B using 4bit quantization from the transformers library is possible load_in_4bit. How difficult could be for Fastach to support it?

貢獻者指南

研究方向: 研究 FastChat 目前如何載入模型（例如在 model worker.py 中），並複現 transformers 函式庫中的 load in 4bit 參數。查閱 issue 中連結的 transformers 量化文件以了解 API。檢查現有評論以獲取任何見解或阻礙。在模型載入管道中實作該參數，確保與現有模型服務基礎設施的相容性。
技術棧: pythonpytorch
領域: backend
議題類型: 功能
難度: 2
預計時間: 1-3 小時
活動狀態: 活躍
清晰度: 清晰
前置要求: PythonPyTorchTransformers
新手友善度: 60