Fully Sharded Data Parallel (FSDP) treinamento
info
Beta
Este recurso está em Beta.
Esta página contém exemplos em formato de notebook para usar o Fully Sharded Data Parallel (FSDP) em GPUs sem servidor. compute. Esses exemplos demonstram como escalar o treinamento em várias GPUs e nós para Desempenho aprimorado.
treinamento de um modelo Transformer com 10 milhões de parâmetros usando FSDP2
O Notebook a seguir demonstra o treinamento distribuído de um modelo Transformer de 10 milhões de parâmetros usando a biblioteca FSDP2 .
Notebook
Treinamento do modelo OpenAI GPT OSS 120B usando TRL e FSDP
Este notebook demonstra como executar o ajuste fino supervisionado (SFT) em um modelo GPT OSS 120B usando FSDP2 e distribuído Biblioteca de GPU sem servidor.