Treinamento distribuído com várias GPUs e vários nós
Beta
Esse recurso está na versão beta.
Esta página tem exemplos de Notebook para treinamento distribuído com vários nós e várias GPUs usando a GPU sem servidor compute. Esses exemplos demonstram como escalar o treinamento em várias GPUs e nós para melhorar o desempenho.
Atualmente, o treinamento distribuído em vários nós só é compatível com as GPUs A10. O treinamento distribuído de várias GPUs é compatível com as GPUs A10 e H100.
Escolha sua técnica de paralelismo
Ao dimensionar o treinamento do seu modelo em várias GPUs, a escolha da técnica de paralelismo adequada depende do tamanho do modelo, da memória da GPU disponível e dos requisitos de desempenho.
Técnica | Quando usar |
|---|---|
DDP (Paralelismo de Dados Distribuídos) | O modelo completo cabe em uma única memória GPU; necessidade de escalar dados Taxa de transferência |
FSDP (Paralelismo de Dados Totalmente Fragmentado) | Modelos muito grandes que não cabem na memória de uma única GPU. |
DeepSpeed ZeroRO | Modelos grandes com necessidades avançadas de otimização de memória |
Para informações detalhadas sobre cada técnica, consulte DDP, FSDP e DeepSpeed.
Exemplo de caderno por técnica e estrutura
A tabela a seguir organiza os exemplos de Notebook de acordo com a estrutura/biblioteca que você está usando e a técnica de paralelismo aplicada. Vários blocos de notas podem aparecer em uma única célula.
Framework/biblioteca | Exemplos de DDP | Exemplos FSDP | Exemplos do DeepSpeed |
|---|---|---|---|
PyTorch (nativo) | — | ||
TRL + PyTorch | |||
Unsloth | — | — | |
— | — | ||
PyTorch Lightning | — | — |
Comece agora
O Notebook a seguir apresenta um exemplo básico de como usar a GPU sem servidor Python APIpara iniciar várias GPUs A10 para treinamento distribuído.
API de GPU sem servidor: A10 starter
O Notebook a seguir apresenta um exemplo básico de como usar a GPU sem servidor Python APIpara iniciar várias GPUs H100 para treinamento distribuído.