Pular para o conteúdo principal

Treinamento distribuído com o distribuidor DeepSpeed

Este artigo descreve como realizar o treinamento distribuído nos modelos PyTorch ML usando o distribuidor DeepSpeed.

O distribuidor DeepSpeed foi desenvolvido com base no TorchDistributor e é uma solução recomendada para clientes com modelos que exigem maior potência compute, mas são limitados por restrições de memória.

A biblioteca DeepSpeed é uma biblioteca de código aberto desenvolvida pela Microsoft e está disponível no Databricks Runtime 14.0 ML ouacima. Ele oferece uso otimizado de memória, sobrecarga de comunicação reduzida e paralelismo de pipeline avançado que permite dimensionar modelos e procedimentos de treinamento que de outra forma seriam inatingíveis em hardware padrão.

A seguir estão exemplos de cenários em que o distribuidor DeepSpeed é benéfico:

  • Memória de GPU baixa.
  • Modelo grande de treinamento.
  • Dados de entrada grandes, como durante a inferência de lotes.

Exemplo de notebook para treinamento distribuído com o DeepSpeed

O exemplo de Notebook a seguir demonstra como executar o treinamento distribuído com o distribuidor DeepSpeed.

Ajuste fino do Llama 2 7B Chat com o Notebook DeepspeedTorchDistributor

Open notebook in new tab