Pular para o conteúdo principal

Fully Sharded Data Parallel (FSDP) treinamento

info

Beta

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.

Esta página contém exemplos de notebooks para treinamento em compute GPU sem servidor usando Fully Sharded Data Parallel (FSDP) . O FSDP distribui os parâmetros do modelo, os gradientes e os estados do otimizador entre as GPUs, permitindo o treinamento de modelos muito grandes que não cabem na memória de uma única GPU.

Quando usar o FSDP

Utilize FSDP quando:

  • Seu modelo é muito grande para caber na memória de uma única GPU.
  • Você precisa ensinar modelos na faixa de parâmetros de 20 bilhões a 120 bilhões ou mais.
  • Você deseja uma eficiência de memória maior do que a oferecida pelo DDP.

Para modelos menores que cabem em uma única memória de GPU, considere o DDP para maior simplicidade. Para recursos avançados de otimização de memória, consulte DeepSpeed.

Treinar um modelo Transformer com 10 milhões de parâmetros usando FSDP2

O seguinte Notebook demonstra o treinamento distribuído de um modelo Transformer 10 milhões de parâmetros usando a biblioteca FSDP2 .

PyTorch FSDP

Open notebook in new tab

Treinamento do modelo OpenAI GPT-OSS 120B usando TRL e FSDP

Este notebook demonstra como executar o ajuste fino supervisionado (SFT) em um modelo GPT-OSS 120B usando o FSDP2 e a biblioteca Transformer Reinforcement Learning (TRL) . Este exemplo utiliza FSDP para reduzir o consumo de memória e DDP para aumentar o tamanho dos lotes globais em 8 GPUs H100.

TRL FSDP

Open notebook in new tab