Pular para o conteúdo principal

Treinamento distribuído com várias GPUs e vários nós

info

Beta

Esse recurso está na versão beta.

Esta página tem exemplos de Notebook para treinamento distribuído com vários nós e várias GPUs usando a GPU sem servidor compute. Esses exemplos demonstram como escalar o treinamento em várias GPUs e nós para melhorar o desempenho.

nota

Atualmente, o treinamento distribuído em vários nós só é compatível com as GPUs A10. O treinamento distribuído de várias GPUs é compatível com as GPUs A10 e H100.

Antes de executar esse Notebook, consulte a lista de verificação de práticas recomendadas.

GPU sem servidor API: A10 starter

O Notebook a seguir apresenta um exemplo básico de como usar a GPU sem servidor Python APIpara iniciar várias GPUs A10 para treinamento distribuído.

Notebook

Open notebook in new tab

GPU sem servidor API: H100 starter

O Notebook a seguir apresenta um exemplo básico de como usar a GPU sem servidor Python APIpara iniciar várias GPUs H100 para treinamento distribuído.

Notebook

Open notebook in new tab

Treinamento distribuído usando MLflow 3.0

Este Notebook apresenta as melhores práticas para usar MLflow no Databricks para casos de uso em compute de GPU serverless . Este Notebook usa a APIde GPU sem servidor para iniciar o treinamento distribuído de um modelo de classificação simples em uma GPU A10 remota. O treinamento é rastreado como uma execução do MLflow.

Notebook

Open notebook in new tab

Treinamento distribuído usando PyTorch's Distributed Data Parallel (DDP)

O Notebook a seguir demonstra o treinamento distribuído de uma rede neural simples de perceptron multicamadas (MLP) usando o módulo Distributed Data Parallel (DDP) do PyTorch em Databricks com recurso de GPU serverless.

Notebook

Open notebook in new tab

Treinamento distribuído usando Ray

Este Notebook demonstra o treinamento distribuído de um modelo PyTorch ResNet no dataset FashionMNIST usando Ray ensinar e Ray Data em clusters de GPU sem servidor Databricks . Ele abrange a configuração do armazenamento do Unity Catalog, a configuração do Ray para treinamento de GPU de vários nós, o registro e a criação de registros de modelos com o MLflow e a avaliação do desempenho do modelo.

Notebook

Open notebook in new tab

Ajuste fino supervisionado distribuído usando TRL

Este Notebook demonstra como usar a GPU sem servidor Python APIpara executar o ajuste fino supervisionado (SFT) usando a biblioteca TRL com a otimização DeepSpeed ZeRO Stage 3 em uma GPU A10 de nó único. Essa abordagem pode ser estendida para configurações de vários nós.

Notebook

Open notebook in new tab