Treinamento distribuído multi-GPU

info

Beta

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.

Esta página contém exemplos de notebooks para treinamento distribuído com múltiplas GPUs usando AI Runtime. Esses exemplos demonstram como escalar o treinamento em várias GPUs e nós para melhorar o desempenho.

nota

O treinamento distribuído com múltiplas GPUs é suportado nas GPUs H100.

Escolha sua técnica de paralelismo

Ao dimensionar o treinamento do seu modelo em várias GPUs, a escolha da técnica de paralelismo adequada depende do tamanho do modelo, da memória da GPU disponível e dos requisitos de desempenho.

Técnica	Quando usar
DDP (Paralelismo de Dados Distribuídos)	O modelo completo cabe em uma única memória GPU; necessidade de escalar dados Taxa de transferência
FSDP (Paralelismo de Dados Totalmente Fragmentado)	Modelos muito grandes que não cabem na memória de uma única GPU.
DeepSpeed ZeroRO	Modelos grandes com necessidades avançadas de otimização de memória

Para informações detalhadas sobre cada técnica, consulte DDP, FSDP e DeepSpeed.

Exemplo de caderno por técnica e estrutura

A tabela a seguir organiza os exemplos de Notebook de acordo com a estrutura/biblioteca que você está usando e a técnica de paralelismo aplicada. Vários blocos de notas podem aparecer em uma única célula.

Framework/biblioteca	Exemplos de DDP	Exemplos FSDP	Exemplos do DeepSpeed
PyTorch (nativo)	Rede neural MLP simples Detecção de imagem RetinaNet	transformador de parâmetros 10M	—
Huggingface TRL	Ajuste fino do Gpt OSS 20B	Ajuste fino do Gpt OSS 120B	Ajuste fino Llama 3.2 1B
Unsloth	Ajuste fino Llama 3.2 3B	—	—
Axolote	Ajuste fino Olmo3 7B	—	—
Fundição Mosaic LLM	Ajuste fino Llama 3.2 8B	—	—
Raio	Sistema de recomendação de duas torres	—	—

Comece agora

Use o seguinte tutorial para começar a usar a biblioteca Python para treinamento distribuído com GPU serverless :

Tutorial	Descrição
Runtime AI com GPUs H100	Aprenda como usar Databricks AI Runtime com aceleradores H100 para executar cargas de trabalho distribuídas em GPUs usando a biblioteca Python serverless_gpu.

Escolha sua técnica de paralelismo​

Exemplo de caderno por técnica e estrutura​

Comece agora​

Escolha sua técnica de paralelismo

Exemplo de caderno por técnica e estrutura

Comece agora