Treinamento distribuído com o distribuidor DeepSpeed

Este artigo descreve como realizar o treinamento distribuído nos modelos PyTorch ML usando o distribuidor DeepSpeed.

O distribuidor DeepSpeed foi desenvolvido com base no TorchDistributor e é uma solução recomendada para clientes com modelos que exigem maior potência compute, mas são limitados por restrições de memória.

A biblioteca DeepSpeed é uma biblioteca de código aberto desenvolvida pela Microsoft e está disponível no Databricks Runtime 14.0 ML ouacima. Ele oferece uso otimizado de memória, sobrecarga de comunicação reduzida e paralelismo de pipeline avançado que permite dimensionar modelos e procedimentos de treinamento que de outra forma seriam inatingíveis em hardware padrão.

A seguir estão exemplos de cenários em que o distribuidor DeepSpeed é benéfico:

Memória de GPU baixa.
Modelo grande de treinamento.
Dados de entrada grandes, como durante a inferência de lotes.

Exemplo de notebook para treinamento distribuído com o DeepSpeed

O exemplo de Notebook a seguir demonstra como executar o treinamento distribuído com o distribuidor DeepSpeed.

Ajuste fino do Llama 2 7B Chat com o Notebook DeepspeedTorchDistributor

Open notebook in new tab

Exemplo de notebook para treinamento distribuído com o DeepSpeed​

Ajuste fino do Llama 2 7B Chat com o Notebook DeepspeedTorchDistributor

Exemplo de notebook para treinamento distribuído com o DeepSpeed