Pular para o conteúdo principal

Fully Sharded Data Parallel (FSDP) treinamento

info

Beta

Este recurso está em Beta.

Esta página contém exemplos de Notebook para uso do treinamento Fully Sharded Data Parallel (FSDP) em GPU sem servidor compute. Esses exemplos demonstram como escalar o treinamento em várias GPUs e nós para desempenho melhorado.

treinamento de um modelo Transformer com 10 milhões de parâmetros usando FSDP2

O Notebook a seguir demonstra o treinamento distribuído de um modelo Transformer de 10 milhões de parâmetros usando a biblioteca FSDP2 .

Notebook

Open notebook in new tab