Fully Sharded Data Parallel (FSDP) treinamento
Beta
Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.
Esta página contém exemplos de notebooks para treinamento em compute GPU sem servidor usando Fully Sharded Data Parallel (FSDP) . O FSDP distribui os parâmetros do modelo, os gradientes e os estados do otimizador entre as GPUs, permitindo o treinamento de modelos muito grandes que não cabem na memória de uma única GPU.
Quando usar o FSDP
Utilize FSDP quando:
- Seu modelo é muito grande para caber na memória de uma única GPU.
- Você precisa ensinar modelos na faixa de parâmetros de 20 bilhões a 120 bilhões ou mais.
- Você deseja uma eficiência de memória maior do que a oferecida pelo DDP.
Para modelos menores que cabem em uma única memória de GPU, considere o DDP para maior simplicidade. Para recursos avançados de otimização de memória, consulte DeepSpeed.
Treinar um modelo Transformer com 10 milhões de parâmetros usando FSDP2
O seguinte Notebook demonstra o treinamento distribuído de um modelo Transformer 10 milhões de parâmetros usando a biblioteca FSDP2 .
PyTorch FSDP
Treinamento do modelo OpenAI GPT-OSS 120B usando TRL e FSDP
Este notebook demonstra como executar o ajuste fino supervisionado (SFT) em um modelo GPT-OSS 120B usando o FSDP2 e a biblioteca Transformer Reinforcement Learning (TRL) . Este exemplo utiliza FSDP para reduzir o consumo de memória e DDP para aumentar o tamanho dos lotes globais em 8 GPUs H100.