Treinamento distribuído com várias GPUs e vários nós
Beta
Esse recurso está na versão beta.
Esta página tem exemplos de Notebook para treinamento distribuído com vários nós e várias GPUs usando a GPU sem servidor compute. Esses exemplos demonstram como escalar o treinamento em várias GPUs e nós para melhorar o desempenho.
Atualmente, o treinamento distribuído em vários nós só é compatível com as GPUs A10. O treinamento distribuído de várias GPUs é compatível com as GPUs A10 e H100.
Antes de executar esse Notebook, consulte a lista de verificação de práticas recomendadas.
GPU sem servidor API: A10 starter
O Notebook a seguir apresenta um exemplo básico de como usar a GPU sem servidor Python APIpara iniciar várias GPUs A10 para treinamento distribuído.
Notebook
GPU sem servidor API: H100 starter
O Notebook a seguir apresenta um exemplo básico de como usar a GPU sem servidor Python APIpara iniciar várias GPUs H100 para treinamento distribuído.
Notebook
Treinamento distribuído usando MLflow 3.0
Este Notebook apresenta as melhores práticas para usar MLflow no Databricks para casos de uso em compute de GPU serverless . Este Notebook usa a APIde GPU sem servidor para iniciar o treinamento distribuído de um modelo de classificação simples em uma GPU A10 remota. O treinamento é rastreado como uma execução do MLflow.
Notebook
Treinamento distribuído usando PyTorch's Distributed Data Parallel (DDP)
O Notebook a seguir demonstra o treinamento distribuído de uma rede neural simples de perceptron multicamadas (MLP) usando o módulo Distributed Data Parallel (DDP) do PyTorch em Databricks com recurso de GPU serverless.
Notebook
Treinamento distribuído usando Ray
Este Notebook demonstra o treinamento distribuído de um modelo PyTorch ResNet no dataset FashionMNIST usando Ray ensinar e Ray Data em clusters de GPU sem servidor Databricks . Ele abrange a configuração do armazenamento do Unity Catalog, a configuração do Ray para treinamento de GPU de vários nós, o registro e a criação de registros de modelos com o MLflow e a avaliação do desempenho do modelo.
Notebook
Ajuste fino supervisionado distribuído usando TRL
Este Notebook demonstra como usar a GPU sem servidor Python APIpara executar o ajuste fino supervisionado (SFT) usando a biblioteca TRL com a otimização DeepSpeed ZeRO Stage 3 em uma GPU A10 de nó único. Essa abordagem pode ser estendida para configurações de vários nós.