Treinamento distribuído com distribuidor DeepSpeed

Este artigo descreve como realizar treinamento distribuído em modelos PyTorch ML usando o distribuidor DeepSpeed .

O distribuidor DeepSpeed é construído sobre o TorchDistributor e é uma solução recomendada para clientes com modelos que exigem maior poder compute , mas são limitados por restrições de memória.

A biblioteca DeepSpeed é uma biblioteca de código aberto desenvolvida pela Microsoft e está disponível no Databricks Runtime 14.0 ML ouacima. Ele oferece uso otimizado de memória, sobrecarga de comunicação reduzida e paralelismo de pipeline avançado que permite dimensionar modelos e procedimentos de treinamento que de outra forma seriam inatingíveis em hardware padrão.

A seguir estão exemplos de cenários em que o distribuidor DeepSpeed é benéfico:

  • Memória GPU baixa.

  • Treinamento modelo grande.

  • Grandes dados de entrada, como durante a inferência de lotes.

Exemplo Notebook para treinamento distribuído com DeepSpeed

O exemplo Notebook a seguir demonstra como realizar treinamento distribuído com o distribuidor DeepSpeed.

Ajuste o bate-papo do Llama 2 7B com Notebook`DeepspeedTorchDistributor`

Abra o bloco de anotações em outra guia