Treinamento distribuído multi-GPU
Beta
Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.
Esta página contém exemplos de notebooks para treinamento distribuído com múltiplas GPUs usando AI Runtime. Esses exemplos demonstram como escalar o treinamento em várias GPUs e nós para melhorar o desempenho.
O treinamento distribuído com múltiplas GPUs é suportado nas GPUs H100.
Escolha sua técnica de paralelismo
Ao dimensionar o treinamento do seu modelo em várias GPUs, a escolha da técnica de paralelismo adequada depende do tamanho do modelo, da memória da GPU disponível e dos requisitos de desempenho.
Técnica | Quando usar |
|---|---|
DDP (Paralelismo de Dados Distribuídos) | O modelo completo cabe em uma única memória GPU; necessidade de escalar dados Taxa de transferência |
FSDP (Paralelismo de Dados Totalmente Fragmentado) | Modelos muito grandes que não cabem na memória de uma única GPU. |
DeepSpeed ZeroRO | Modelos grandes com necessidades avançadas de otimização de memória |
Para informações detalhadas sobre cada técnica, consulte DDP, FSDP e DeepSpeed.
Exemplo de caderno por técnica e estrutura
A tabela a seguir organiza os exemplos de Notebook de acordo com a estrutura/biblioteca que você está usando e a técnica de paralelismo aplicada. Vários blocos de notas podem aparecer em uma única célula.
Framework/biblioteca | Exemplos de DDP | Exemplos FSDP | Exemplos do DeepSpeed |
|---|---|---|---|
PyTorch (nativo) | — | ||
— | — | ||
— | — | ||
— | — | ||
— | — |
Comece agora
Use o seguinte tutorial para começar a usar a biblioteca Python para treinamento distribuído com GPU serverless :
Tutorial | Descrição |
|---|---|
Aprenda como usar Databricks AI Runtime com aceleradores H100 para executar cargas de trabalho distribuídas em GPUs usando a biblioteca Python serverless_gpu. |