Pular para o conteúdo principal

Treinamento distribuído com várias GPUs e vários nós

info

Beta

Esse recurso está na versão beta.

Esta página tem exemplos de Notebook para treinamento distribuído com vários nós e várias GPUs usando a GPU sem servidor compute. Esses exemplos demonstram como escalar o treinamento em várias GPUs e nós para melhorar o desempenho.

nota

Atualmente, o treinamento distribuído em vários nós só é compatível com as GPUs A10. O treinamento distribuído de várias GPUs é compatível com as GPUs A10 e H100.

Escolha sua técnica de paralelismo

Ao dimensionar o treinamento do seu modelo em várias GPUs, a escolha da técnica de paralelismo adequada depende do tamanho do modelo, da memória da GPU disponível e dos requisitos de desempenho.

Técnica

Quando usar

DDP (Paralelismo de Dados Distribuídos)

O modelo completo cabe em uma única memória GPU; necessidade de escalar dados Taxa de transferência

FSDP (Paralelismo de Dados Totalmente Fragmentado)

Modelos muito grandes que não cabem na memória de uma única GPU.

DeepSpeed ZeroRO

Modelos grandes com necessidades avançadas de otimização de memória

Para informações detalhadas sobre cada técnica, consulte DDP, FSDP e DeepSpeed.

Exemplo de caderno por técnica e estrutura

A tabela a seguir organiza os exemplos de Notebook de acordo com a estrutura/biblioteca que você está usando e a técnica de paralelismo aplicada. Vários blocos de notas podem aparecer em uma única célula.

Comece agora

O Notebook a seguir apresenta um exemplo básico de como usar a GPU sem servidor Python APIpara iniciar várias GPUs A10 para treinamento distribuído.

API de GPU sem servidor: A10 starter

Open notebook in new tab

O Notebook a seguir apresenta um exemplo básico de como usar a GPU sem servidor Python APIpara iniciar várias GPUs H100 para treinamento distribuído.

API de GPU sem servidor: H100 starter

Open notebook in new tab