Issues with VLLM Integration Speedup · lm-sys/FastChat#2362

(4 commentaires) (0 réactions) (0 assignés)Python (4 736 forks)batch import

good first issue

Métriques du dépôt

Stars: (38 959 stars)
Métriques de merge PR: (Aucune PR mergée en 30 j)

Description

Hello,

I've been trying to work with the [vLLM integration] and I'm facing some performance discrepancies. According to the documentation, I should achieve a significant speedup, but in my tests, I'm seeing different results:

Directly running with FastChat: 16 t/s Using the VLLM integration: 25 t/s (only 1.5x speedup) VLLM offline inference: 90 t/s (expected 6x speedup) I'm running Vicuna33b on a gin H100 gpu. Has anyone experienced this before? Are there any additional configurations or tweaks I might be missing to get the desired speedup?

Thanks in advance for any guidance or advice!

Guide contributeur

Direction de recherche: Comparez la configuration utilisée dans l'intégration FastChat par rapport à l'inférence hors ligne vLLM. Vérifiez si FastChat utilise des tailles de lot, des paramètres de chargement de modèle ou des paramètres de tokenizer différents qui pourraient entraîner une surcharge. Assurez vous également que la même version du modèle et les mêmes paramètres GPU sont utilisés.
Stack technique: python
Domaine: backend
Type d'issue: Bug
Difficulté: 2
Temps estimé: 1-3 heures
Statut d'activité: Active
Clarté: Plutôt claire
Prérequis: PythonvLLM
Accessibilité débutant: 65

Métriques du dépôt

Description

Guide contributeur

Recevez de nouvelles issues Easy par e-mail.