Fully Sharded Data Parallel (FSDP) treinamento

info

Beta

Este recurso está em Beta.

Esta página contém exemplos de notebooks para treinamento em compute GPU sem servidor usando Fully Sharded Data Parallel (FSDP) . O FSDP distribui os parâmetros do modelo, os gradientes e os estados do otimizador entre as GPUs, permitindo o treinamento de modelos muito grandes que não cabem na memória de uma única GPU.

Quando usar o FSDP

Utilize FSDP quando:

Seu modelo é muito grande para caber na memória de uma única GPU.
Você precisa ensinar modelos na faixa de parâmetros de 20 bilhões a 120 bilhões ou mais.
Você deseja uma eficiência de memória maior do que a oferecida pelo DDP.

Para modelos menores que cabem em uma única memória de GPU, considere o DDP para maior simplicidade. Para recursos avançados de otimização de memória, consulte DeepSpeed.

Treinar um modelo Transformer com 10 milhões de parâmetros usando FSDP2

O seguinte Notebook demonstra o treinamento distribuído de um modelo Transformer 10 milhões de parâmetros usando a biblioteca FSDP2 .

PyTorch FSDP

Open notebook in new tab

Treinamento do modelo OpenAI GPT-OSS 120B usando TRL e FSDP

Este notebook demonstra como executar o ajuste fino supervisionado (SFT) em um modelo GPT-OSS 120B usando o FSDP2 e a biblioteca Transformer Reinforcement Learning (TRL) . Este exemplo utiliza FSDP para reduzir o consumo de memória e DDP para aumentar o tamanho dos lotes globais em 8 GPUs H100.

TRL FSDP

Open notebook in new tab

Quando usar o FSDP​

Treinar um modelo Transformer com 10 milhões de parâmetros usando FSDP2​

PyTorch FSDP

Treinamento do modelo OpenAI GPT-OSS 120B usando TRL e FSDP​

TRL FSDP

Quando usar o FSDP

Treinar um modelo Transformer com 10 milhões de parâmetros usando FSDP2

Treinamento do modelo OpenAI GPT-OSS 120B usando TRL e FSDP