Treinamento distribuído usando DeepSpeed
Beta
Este recurso está em Beta.
Esta página contém exemplos de notebooks para treinamento distribuído usando DeepSpeed em compute GPU sem servidor. O DeepSpeed oferece técnicas avançadas de otimização de memória por meio de seus estágios ZeRO (Zero Redundancy Optimizer), permitindo o treinamento eficiente de modelos de grande porte.
Quando usar o DeepSpeed
Use o DeepSpeed quando:
- Você precisa de otimização de memória avançada além do FSDP padrão.
- Você deseja um controle preciso sobre o particionamento do estado do otimizador (ZeRO Estágio 1, 2 ou 3).
- Você precisa de recursos adicionais, como fusão por acumulação de gradiente ou descarregamento de CPU.
- Você está trabalhando com modelos de linguagem grandes (de 1 bilhão a mais de 100 bilhões de parâmetros).
Para casos de uso mais simples, considere o DDP. Para treinamento de modelos grandes nativos do PyTorch, consulte FSDP.
Ajuste fino supervisionado usando TRL e DeepSpeed ZeRO Stage 3
Este notebook demonstra como usar a API Python para GPUs sem servidor para executar ajuste fino supervisionado (SFT) usando a bibliotecaTransformer Reinforcement Learning (TRL) com otimização DeepSpeed ZeRO Stage 3 em uma GPU A10 de nó único. Essa abordagem pode ser estendida a configurações com múltiplos nós.