Pular para o conteúdo principal

Fully Sharded Data Parallel (FSDP) treinamento

info

Beta

Este recurso está em Beta.

Esta página contém exemplos em formato de notebook para usar o Fully Sharded Data Parallel (FSDP) em GPUs sem servidor. compute. Esses exemplos demonstram como escalar o treinamento em várias GPUs e nós para Desempenho aprimorado.

treinamento de um modelo Transformer com 10 milhões de parâmetros usando FSDP2

O Notebook a seguir demonstra o treinamento distribuído de um modelo Transformer de 10 milhões de parâmetros usando a biblioteca FSDP2 .

Notebook

Open notebook in new tab

Treinamento do modelo OpenAI GPT OSS 120B usando TRL e FSDP

Este notebook demonstra como executar o ajuste fino supervisionado (SFT) em um modelo GPT OSS 120B usando FSDP2 e distribuído Biblioteca de GPU sem servidor.

Notebook

Open notebook in new tab