Treinamento distribuído usando DeepSpeed

info

Beta

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.

Esta página contém exemplos de notebooks para treinamento distribuído usando DeepSpeed em compute GPU sem servidor. O DeepSpeed oferece técnicas avançadas de otimização de memória por meio de seus estágios ZeRO (Zero Redundancy Optimizer), permitindo o treinamento eficiente de modelos de grande porte.

Quando usar o DeepSpeed

Use o DeepSpeed quando:

Você precisa de otimização de memória avançada além do FSDP padrão.
Você deseja um controle preciso sobre o particionamento do estado do otimizador (ZeRO Estágio 1, 2 ou 3).
Você precisa de recursos adicionais, como fusão por acumulação de gradiente ou descarregamento de CPU.
Você está trabalhando com modelos de linguagem grandes (de 1 bilhão a mais de 100 bilhões de parâmetros).

Para casos de uso mais simples, considere o DDP. Para treinamento de modelos grandes nativos do PyTorch, consulte FSDP.

Exemplos

Tutorial	Descrição
Ajuste fino supervisionado usando TRL e DeepSpeed ZeRO Stage 3	Utilize a API Python para GPUs sem servidor para executar o ajuste fino supervisionado (SFT) usando a biblioteca Transformer Reinforcement Learning (TRL) com a otimização DeepSpeed ZeRO Stage 3 em uma GPU A10 de nó único.

Quando usar o DeepSpeed​

Exemplos​

Quando usar o DeepSpeed

Exemplos