Treinamento distribuído com várias GPUs e vários nós

info

Beta

Esse recurso está na versão beta.

Esta página tem exemplos de Notebook para treinamento distribuído com vários nós e várias GPUs usando a GPU sem servidor compute. Esses exemplos demonstram como escalar o treinamento em várias GPUs e nós para melhorar o desempenho.

nota

Atualmente, o treinamento distribuído em vários nós só é compatível com as GPUs A10. O treinamento distribuído de várias GPUs é compatível com as GPUs A10 e H100.

Escolha sua técnica de paralelismo

Ao dimensionar o treinamento do seu modelo em várias GPUs, a escolha da técnica de paralelismo adequada depende do tamanho do modelo, da memória da GPU disponível e dos requisitos de desempenho.

Técnica	Quando usar
DDP (Paralelismo de Dados Distribuídos)	O modelo completo cabe em uma única memória GPU; necessidade de escalar dados Taxa de transferência
FSDP (Paralelismo de Dados Totalmente Fragmentado)	Modelos muito grandes que não cabem na memória de uma única GPU.
DeepSpeed ZeroRO	Modelos grandes com necessidades avançadas de otimização de memória

Para informações detalhadas sobre cada técnica, consulte DDP, FSDP e DeepSpeed.

Exemplo de caderno por técnica e estrutura

A tabela a seguir organiza os exemplos de Notebook de acordo com a estrutura/biblioteca que você está usando e a técnica de paralelismo aplicada. Vários blocos de notas podem aparecer em uma única célula.

Framework/biblioteca	Exemplos de DDP	Exemplos FSDP	Exemplos do DeepSpeed
PyTorch (nativo)	Rede neural MLP simples Integração do MLflow 3.0 (classificação Iris)	transformador de parâmetros 10M	—
TRL + PyTorch	Ajuste fino do GPT-OSS	Ajuste fino do GPT-OSS	Ajuste fino Llama 1B
Unsloth	Ajuste fino Llama 3.2 3B	—	—
Ray ensina	ResNet18 no FashionMNIST (visão computacional)	—	—
PyTorch Lightning	Sistema de recomendação de duas torres	—	—