How to free multiple gpu memory · triton-inference-server/server#7825

(1 commentaire) (0 réactions) (0 assignés)Python (1 304 forks)batch import

help wantedonnxquestion

Métriques du dépôt

Stars: (6 593 stars)
Métriques de merge PR: (Merge moyen 2j 16h) (34 PRs mergées en 30 j)

Description

The question is how do you free memory

https://github.com/triton-inference-server/onnxruntime_backend/issues/103

When the model is deployed to a single card, I can specify real-time release of gpu memory, but if the model is deployed to multiple cards, I don't know what the format looks like

parameters { key: "memory.enable_memory_arena_shrinkage" value: { string_value: "gpu:3" }  }

instance_group [
    {
        count: 1
        kind: KIND_GPU
        gpus: [ 3 ]
    }
]

Guide contributeur

Direction de recherche: Le problème demande comment configurer la libération de mémoire pour plusieurs GPU. Recherchez les paramètres instance group et memory.enable memory arena shrinkage dans la documentation et le code source de Triton. L'issue liée #103 peut fournir un contexte supplémentaire. Envisagez de mettre à jour la documentation pour clarifier la syntaxe pour plusieurs GPU.
Stack technique: python
Domaine: backendinfrastructure
Type d'issue: Recherche
Difficulté: 3
Temps estimé: Une demi journée
Statut d'activité: Récente
Clarté: Claire
Prérequis: GPUCUDATriton Inference Server
Accessibilité débutant: 40

Métriques du dépôt

Description

Guide contributeur

Recevez de nouvelles issues Easy par e-mail.