Treinamento Paralelo de Dados Distribuídos (DDP)
Beta
Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.
Esta página contém exemplos de notebooks para treinamento em Paralelismo de Dados Distribuídos (DDP) no AI Runtime. DDP é a técnica de paralelismo mais comum para treinamento distribuído, onde o modelo completo é replicado em cada GPU e os lotes de dados são divididos entre as GPUs.
Quando usar o DDP
Use DDP quando:
- Seu modelo cabe completamente na memória de uma única GPU.
- Você deseja escalar treinamento aumentando a Taxa de transferência de dados
- Você precisa da abordagem de treinamento distribuído mais simples, com suporte automático na maioria das estruturas.
Para modelos maiores que não cabem na memória de uma única GPU, considere usar FSDP ou DeepSpeed .
Exemplos
Tutorial | Descrição |
|---|---|
Treinando uma rede neural perceptron multicamadas (MLP) simples usando PyTorch DDP | Este Notebook demonstra o treinamento distribuído de uma rede neural perceptron multicamadas (MLP) simples usando o módulo DDP do PyTorch no Databricks com recursos de GPU serverless . |
Treinamento do modelo OpenAI GPT-OSS 20B em 8xH100 usando TRL e DDP | Este notebook demonstra como usar a API Python para GPU sem servidor para executar o ajuste fino supervisionado (SFT) no modelo GPT-OSS 20B da Hugging Face usando a biblioteca Transformer Reinforcement Learning (TRL) . Este exemplo utiliza o DDP em todas as 8 GPUs H100 do nó para aumentar o tamanho dos lotes globais. |
Este notebook demonstra como usar a API Python para GPUs sem servidor para ajustar um modelo Llama 3.2 3B com a biblioteca Unsloth em 8 GPUs A10. O Unsloth oferece otimizações de treinamento com uso eficiente de memória e utiliza DDP internamente por meio do Hugging Face Accelerate. | |
Este notebook demonstra como usar a API Python para GPUs sem servidor para ajustar um modelo Olmo3 7B com a biblioteca Axolotl em 16 GPUs H100. O Axolotl foi projetado para simplificar o pós-treinamento e o ajuste fino para os mais recentes LLMs (Low Life Models). | |
Treinando um sistema de recomendação de duas torres usando PyTorch Lightning | Este Notebook demonstra como ensinar um modelo de recomendação de duas torres usando PyTorch Lightning em uma GPU serverless . O PyTorch Lightning fornece uma interface de alto nível que lida automaticamente com a configuração DDP para treinamento com múltiplas GPUs. O exemplo inclui a preparação de dados usando o formato de transmissão Mosaic (MDS) e treinamento distribuído em GPUs A10 ou H100. Consulte a página de exemplos de recomendações de aprendizagem profunda para obter o Notebook completo, incluindo:
|
Treinando uma rede neural perceptron multicamadas (MLP) simples usando PyTorch DDP
O seguinte Notebook demonstra o treinamento distribuído de uma rede neural perceptron multicamadas (MLP) simples usando o módulo DDP do PyTorch no Databricks com recursos de GPU serverless .
PyTorch DDP
Treinando um sistema de recomendação de duas torres usando PyTorch Lightning
Este Notebook demonstra como ensinar um modelo de recomendação de duas torres usando PyTorch Lightning em compute GPU serverless . O PyTorch Lightning fornece uma interface de alto nível que lida automaticamente com a configuração DDP para treinamento com múltiplas GPUs. O exemplo inclui a preparação de dados usando o formato de transmissão Mosaic (MDS) e treinamento distribuído em GPUs A10 ou H100.
Consulte a página de exemplos de recomendações de aprendizagem profunda para obter o Notebook completo, incluindo:
- Preparação de dados e conversão para o formato MDS
- Sistema de recomendação de duas torres com PyTorch Lightning