Treinamento distribuído com o distribuidor DeepSpeed
Este artigo descreve como realizar o treinamento distribuído nos modelos PyTorch ML usando o distribuidor DeepSpeed.
O distribuidor DeepSpeed foi desenvolvido com base no TorchDistributor e é uma solução recomendada para clientes com modelos que exigem maior potência compute, mas são limitados por restrições de memória.
A biblioteca DeepSpeed é uma biblioteca de código aberto desenvolvida pela Microsoft e está disponível no Databricks Runtime 14.0 ML ouacima. Ele oferece uso otimizado de memória, sobrecarga de comunicação reduzida e paralelismo de pipeline avançado que permite dimensionar modelos e procedimentos de treinamento que de outra forma seriam inatingíveis em hardware padrão.
A seguir estão exemplos de cenários em que o distribuidor DeepSpeed é benéfico:
- Memória de GPU baixa.
- Modelo grande de treinamento.
- Dados de entrada grandes, como durante a inferência de lotes.
Exemplo de notebook para treinamento distribuído com o DeepSpeed
O exemplo de Notebook a seguir demonstra como executar o treinamento distribuído com o distribuidor DeepSpeed.