[Kernel] cuDNN attention backend · sgl-project/sglang#2272

(5 Kommentare) (1 Reaktion) (2 zugewiesene Personen)Python (6.216 Forks)auto 404

enhancementgood first issuehelp wantedhigh priorityinactive

Repository-Metriken

cuDNN provides very fast attention implementation and it is well maintained by NVIDIA. We would like to add a new attention backend based on cudnn.

Learn this cudnn paged attention python api. https://github.com/NVIDIA/cudnn-frontend/blob/v1.8.0/samples/python/52_scaled_dot_product_attention_with_paged_caches.ipynb
Add a new attention backend "cudnn" here https://github.com/sgl-project/sglang/tree/main/python/sglang/srt/layers/attention
We should be able to use it with python3 -m sglang.launch_server --model meta-llama/Llama-3.1-8B-Instruct --attention-backend cudnn

Research-Richtung: Untersuche die vorhandenen Attention Backends in sglang/srt/layers/attention, verstehe die Schnittstelle und erkunde die in Schritt 1 verlinkte cuDNN Paged Attention Python API. Implementiere dann ein neues Backend nach dem Muster der vorhandenen Backends.
Tech Stack: python
Domain: backendmachine learning
Issue Type: Funktion
Schwierigkeit: 3
Geschätzte Zeit: 1-2 Tage
Aktivitätsstatus: Aktiv
Klarheit: Klar
Voraussetzungen: PythonCUDAcuDNN
Einsteigerfreundlichkeit: 60