Treinamento Paralelo de Dados Distribuídos (DDP)

info

Beta

Este recurso está em Beta.

Esta página contém exemplos de notebooks para usar o treinamento de Paralelismo de Dados Distribuídos (DDP) em compute GPU sem servidor. DDP é a técnica de paralelismo mais comum para treinamento distribuído, onde o modelo completo é replicado em cada GPU e os lotes de dados são divididos entre as GPUs.

Quando usar o DDP

Use DDP quando:

Seu modelo cabe completamente na memória de uma única GPU.
Você deseja escalar treinamento aumentando a Taxa de transferência de dados
Você precisa da abordagem de treinamento distribuído mais simples, com suporte automático na maioria das estruturas.

Para modelos maiores que não cabem na memória de uma única GPU, considere usar FSDP ou DeepSpeed .

Treinando uma rede neural perceptron multicamadas (MLP) simples usando PyTorch DDP

O seguinte Notebook demonstra o treinamento distribuído de uma rede neural perceptron multicamadas (MLP) simples usando o módulo DDP do PyTorch no Databricks com recursos de GPU serverless .

PyTorch DDP

Open notebook in new tab

Treinamento do modelo OpenAI GPT-OSS 20B em 8xH100 usando TRL e DDP

Este notebook demonstra como usar a API Python para GPU sem servidor para executar o ajuste fino supervisionado (SFT) no modelo GPT-OSS 20B da Hugging Face usando a biblioteca Transformer Reinforcement Learning (TRL) . Este exemplo utiliza o DDP em todas as 8 GPUs H100 do nó para aumentar o tamanho dos lotes globais.

TRL DDP

Open notebook in new tab

Ajuste fino distribuído do Llama 3.2 3B usando Unsloth

Este notebook demonstra como usar a API Python para GPUs sem servidor para ajustar um modelo Llama 3.2 3B com a biblioteca Unsloth em 8 GPUs A10. O Unsloth oferece otimizações de treinamento com uso eficiente de memória e utiliza DDP internamente por meio do Hugging Face Accelerate.

Unsloth DDP

Open notebook in new tab

Treinamento distribuído usando Ray ensinar (computador vision)

Este Notebook demonstra o treinamento distribuído de um modelo ResNet PyTorch no dataset FashionMNIST usando o Ray ensinando e o Ray Data em clusters de GPU sem servidor Databricks . O Ray ensina fornece orquestração de treinamento distribuído de alto nível e usa DDP como estratégia de paralelismo subjacente. Este exemplo aborda a configuração do armazenamento do Unity Catalog, a configuração do Ray para treinamento com GPUs em vários nós, o registro e a inclusão de modelos no MLflow e a avaliação do desempenho do modelo.

Ray DDP

Open notebook in new tab

Treinando um sistema de recomendação de duas torres usando PyTorch Lightning

Este Notebook demonstra como ensinar um modelo de recomendação de duas torres usando PyTorch Lightning em compute GPU serverless . O PyTorch Lightning fornece uma interface de alto nível que lida automaticamente com a configuração DDP para treinamento com múltiplas GPUs. O exemplo inclui a preparação de dados usando o formato de transmissão Mosaic (MDS) e treinamento distribuído em GPUs A10 ou H100.

Consulte a página de exemplos de recomendações de aprendizagem profunda para obter o Notebook completo, incluindo:

Preparação de dados e conversão para o formato MDS
Sistema de recomendação de duas torres com PyTorch Lightning

Quando usar o DDP​

Treinando uma rede neural perceptron multicamadas (MLP) simples usando PyTorch DDP​

PyTorch DDP

Treinamento do modelo OpenAI GPT-OSS 20B em 8xH100 usando TRL e DDP​

TRL DDP

Ajuste fino distribuído do Llama 3.2 3B usando Unsloth​

Unsloth DDP

Treinamento distribuído usando Ray ensinar (computador vision)​

Ray DDP

Treinando um sistema de recomendação de duas torres usando PyTorch Lightning​

Quando usar o DDP

Treinando uma rede neural perceptron multicamadas (MLP) simples usando PyTorch DDP

Treinamento do modelo OpenAI GPT-OSS 20B em 8xH100 usando TRL e DDP

Ajuste fino distribuído do Llama 3.2 3B usando Unsloth

Treinamento distribuído usando Ray ensinar (computador vision)

Treinando um sistema de recomendação de duas torres usando PyTorch Lightning