support for 4bit quantization from transfomer library. · lm-sys/FastChat#1798 | Good First Issue

(7 comments) (2 reactions) (0 assignees)Python (4,736 forks)batch import

enhancementgood first issue

Repository metrics

Stars: (38,959 stars)
PR merge metrics: (30d に merged PR はありません)

説明

Loading a vicuna13B using 4bit quantization from the transformers library is possible load_in_4bit. How difficult could be for Fastach to support it?

コントリビューターガイド

調査方針: FastChat が現在モデルをどのようにロードしているか（例：model worker.py 内）を調査し、transformers ライブラリの load in 4bit パラメータを再現します。issue でリンクされている transformers の量子化ドキュメントを確認して API を理解します。既存のコメントをチェックし、洞察や障害がないか確認します。モデルロードパイプラインにパラメータを実装し、既存のモデルサービングインフラストラクチャとの互換性を確保します。
技術スタック: pythonpytorch
領域: backend
Issue 種別: 機能
難度: 2
推定時間: 1-3時間
活動状況: アクティブ
明確さ: 明確
前提条件: PythonPyTorchTransformers
初心者向け度: 60