How to free multiple gpu memory · triton-inference-server/server#7825

(1 comment) (0 reactions) (0 assignees)Python (1.304 forks)batch import

help wantedonnxquestion

Métricas do repositório

Stars: (6.593 stars)
Métricas de merge de PR: (Mesclagem média 2d 16h) (34 fundiu PRs em 30d)

Description

The question is how do you free memory

https://github.com/triton-inference-server/onnxruntime_backend/issues/103

When the model is deployed to a single card, I can specify real-time release of gpu memory, but if the model is deployed to multiple cards, I don't know what the format looks like

parameters { key: "memory.enable_memory_arena_shrinkage" value: { string_value: "gpu:3" }  }

instance_group [
    {
        count: 1
        kind: KIND_GPU
        gpus: [ 3 ]
    }
]

Guia do colaborador

Direção de pesquisa: O problema pergunta como configurar a liberação de memória para múltiplas GPUs. Pesquise os parâmetros instance group e memory.enable memory arena shrinkage na documentação e no código fonte do Triton. A issue vinculada #103 pode fornecer contexto adicional. Considere atualizar a documentação para esclarecer a sintaxe para múltiplas GPUs.
Pilha de tecnologia: python
Domain: backendinfrastructure
Tipo Issue: Pesquisa
Difficulty: 3
Tempo estimado: Meio dia
Status da atividade: Recente
Clarity: Claro
Prerequisites: GPUCUDATriton Inference Server
Simpatia para novatos: 40

Métricas do repositório

Description

Guia do colaborador

Receba issues Easy novas por email.