Treinamento distribuído com distribuidor DeepSpeed
Este artigo descreve como realizar treinamento distribuído em modelos PyTorch ML usando o distribuidor DeepSpeed .
O distribuidor DeepSpeed é construído sobre o TorchDistributor e é uma solução recomendada para clientes com modelos que exigem maior poder compute , mas são limitados por restrições de memória.
A biblioteca DeepSpeed é uma biblioteca de código aberto desenvolvida pela Microsoft e está disponível no Databricks Runtime 14.0 ML ouacima. Ele oferece uso otimizado de memória, sobrecarga de comunicação reduzida e paralelismo de pipeline avançado que permite dimensionar modelos e procedimentos de treinamento que de outra forma seriam inatingíveis em hardware padrão.
A seguir estão exemplos de cenários em que o distribuidor DeepSpeed é benéfico:
Memória GPU baixa.
Treinamento modelo grande.
Grandes dados de entrada, como durante a inferência de lotes.