Pular para o conteúdo principal

Treinamento Paralelo de Dados Distribuídos (DDP)

info

Beta

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.

Esta página contém exemplos de notebooks para treinamento em Paralelismo de Dados Distribuídos (DDP) no AI Runtime. DDP é a técnica de paralelismo mais comum para treinamento distribuído, onde o modelo completo é replicado em cada GPU e os lotes de dados são divididos entre as GPUs.

Quando usar o DDP

Use DDP quando:

  • Seu modelo cabe completamente na memória de uma única GPU.
  • Você deseja escalar treinamento aumentando a Taxa de transferência de dados
  • Você precisa da abordagem de treinamento distribuído mais simples, com suporte automático na maioria das estruturas.

Para modelos maiores que não cabem na memória de uma única GPU, considere usar FSDP ou DeepSpeed .

Exemplos

Tutorial

Descrição

Treinando uma rede neural perceptron multicamadas (MLP) simples usando PyTorch DDP

Este Notebook demonstra o treinamento distribuído de uma rede neural perceptron multicamadas (MLP) simples usando o módulo DDP do PyTorch no Databricks com recursos de GPU serverless .

Treinamento do modelo OpenAI GPT-OSS 20B em 8xH100 usando TRL e DDP

Este notebook demonstra como usar a API Python para GPU sem servidor para executar o ajuste fino supervisionado (SFT) no modelo GPT-OSS 20B da Hugging Face usando a biblioteca Transformer Reinforcement Learning (TRL) . Este exemplo utiliza o DDP em todas as 8 GPUs H100 do nó para aumentar o tamanho dos lotes globais.

Ajuste fino distribuído do Llama 3.2 3B usando Unsloth

Este notebook demonstra como usar a API Python para GPUs sem servidor para ajustar um modelo Llama 3.2 3B com a biblioteca Unsloth em 8 GPUs A10. O Unsloth oferece otimizações de treinamento com uso eficiente de memória e utiliza DDP internamente por meio do Hugging Face Accelerate.

Ajuste fino distribuído do Olmo3 7B usando Axolotl

Este notebook demonstra como usar a API Python para GPUs sem servidor para ajustar um modelo Olmo3 7B com a biblioteca Axolotl em 16 GPUs H100. O Axolotl foi projetado para simplificar o pós-treinamento e o ajuste fino para os mais recentes LLMs (Low Life Models).

Treinando um sistema de recomendação de duas torres usando PyTorch Lightning

Este Notebook demonstra como ensinar um modelo de recomendação de duas torres usando PyTorch Lightning em uma GPU serverless . O PyTorch Lightning fornece uma interface de alto nível que lida automaticamente com a configuração DDP para treinamento com múltiplas GPUs. O exemplo inclui a preparação de dados usando o formato de transmissão Mosaic (MDS) e treinamento distribuído em GPUs A10 ou H100.

Consulte a página de exemplos de recomendações de aprendizagem profunda para obter o Notebook completo, incluindo:

  • Preparação de dados e conversão para o formato MDS
  • Sistema de recomendação de duas torres com PyTorch Lightning

Treinando uma rede neural perceptron multicamadas (MLP) simples usando PyTorch DDP

O seguinte Notebook demonstra o treinamento distribuído de uma rede neural perceptron multicamadas (MLP) simples usando o módulo DDP do PyTorch no Databricks com recursos de GPU serverless .

PyTorch DDP

Abrir notebook em uma nova aba

Treinando um sistema de recomendação de duas torres usando PyTorch Lightning

Este Notebook demonstra como ensinar um modelo de recomendação de duas torres usando PyTorch Lightning em compute GPU serverless . O PyTorch Lightning fornece uma interface de alto nível que lida automaticamente com a configuração DDP para treinamento com múltiplas GPUs. O exemplo inclui a preparação de dados usando o formato de transmissão Mosaic (MDS) e treinamento distribuído em GPUs A10 ou H100.

Consulte a página de exemplos de recomendações de aprendizagem profunda para obter o Notebook completo, incluindo:

  • Preparação de dados e conversão para o formato MDS
  • Sistema de recomendação de duas torres com PyTorch Lightning