Pular para o conteúdo principal

Treinamento distribuído usando DeepSpeed

info

Beta

Este recurso está em Beta.

Esta página contém exemplos de notebooks para treinamento distribuído usando DeepSpeed em compute GPU sem servidor. O DeepSpeed oferece técnicas avançadas de otimização de memória por meio de seus estágios ZeRO (Zero Redundancy Optimizer), permitindo o treinamento eficiente de modelos de grande porte.

Quando usar o DeepSpeed

Use o DeepSpeed quando:

  • Você precisa de otimização de memória avançada além do FSDP padrão.
  • Você deseja um controle preciso sobre o particionamento do estado do otimizador (ZeRO Estágio 1, 2 ou 3).
  • Você precisa de recursos adicionais, como fusão por acumulação de gradiente ou descarregamento de CPU.
  • Você está trabalhando com modelos de linguagem grandes (de 1 bilhão a mais de 100 bilhões de parâmetros).

Para casos de uso mais simples, considere o DDP. Para treinamento de modelos grandes nativos do PyTorch, consulte FSDP.

Ajuste fino supervisionado usando TRL e DeepSpeed ZeRO Stage 3

Este notebook demonstra como usar a API Python para GPUs sem servidor para executar ajuste fino supervisionado (SFT) usando a bibliotecaTransformer Reinforcement Learning (TRL) com otimização DeepSpeed ZeRO Stage 3 em uma GPU A10 de nó único. Essa abordagem pode ser estendida a configurações com múltiplos nós.

TRL DeepSpeed

Open notebook in new tab