Pular para o conteúdo principal

Treinamento distribuído multi-GPU

info

Beta

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.

Esta página contém exemplos de notebooks para treinamento distribuído com múltiplas GPUs usando AI Runtime. Esses exemplos demonstram como escalar o treinamento em várias GPUs e nós para melhorar o desempenho.

nota

O treinamento distribuído com múltiplas GPUs é suportado nas GPUs H100.

Escolha sua técnica de paralelismo

Ao dimensionar o treinamento do seu modelo em várias GPUs, a escolha da técnica de paralelismo adequada depende do tamanho do modelo, da memória da GPU disponível e dos requisitos de desempenho.

Técnica

Quando usar

DDP (Paralelismo de Dados Distribuídos)

O modelo completo cabe em uma única memória GPU; necessidade de escalar dados Taxa de transferência

FSDP (Paralelismo de Dados Totalmente Fragmentado)

Modelos muito grandes que não cabem na memória de uma única GPU.

DeepSpeed ZeroRO

Modelos grandes com necessidades avançadas de otimização de memória

Para informações detalhadas sobre cada técnica, consulte DDP, FSDP e DeepSpeed.

Exemplo de caderno por técnica e estrutura

A tabela a seguir organiza os exemplos de Notebook de acordo com a estrutura/biblioteca que você está usando e a técnica de paralelismo aplicada. Vários blocos de notas podem aparecer em uma única célula.

Comece agora

Use o seguinte tutorial para começar a usar a biblioteca Python para treinamento distribuído com GPU serverless :

Tutorial

Descrição

Runtime AI com GPUs H100

Aprenda como usar Databricks AI Runtime com aceleradores H100 para executar cargas de trabalho distribuídas em GPUs usando a biblioteca Python serverless_gpu.