Issue del repository

hzy46/MInference_latest

[NeurIPS'24 Spotlight, ICLR'25, ICML'25] To speed up Long-context LLMs' inference, approximate and dynamic sparse calculate the attention, which reduces inference latency by up to 10x for pre-filling on an A100 while maintaining accuracy.

Star
 (0 star)
Fork
 (0 fork)
Issue indicizzate
 (0 issue indicizzate)
issue per principianti aperte
 (0 issue per principianti aperte)
Ultima indicizzazione
Non ancora indicizzato
Ultimo push GitHub
30 mag 2025
Licenza
Nessun dato sulla licenza
Guida contributori
Nessuna guida contributori
Codice di condotta
Nessun codice di condotta
Linguaggio principale
Python
Metriche merge PR
 (Metriche PR in attesa)
Label per principianti
Nessuna label per principianti indicizzata

Issue

0 issue indicizzate aperte

Nessuna issue indicizzata aperta trovata per questo repository.