完全シャーディングデータ並列（FSDP）トレーニング

備考

ベータ版

この機能はベータ版です。

このページには、サーバレス GPU コンピュートでFully Sharded Data Parallel (FSDP) トレーニングを使用するためのノートブックの例が含まれています。 FSDP シャードモデルは、GPU 全体にわたって、勾配、オプティマイザーの状態をモデル化し、単一の GPU のメモリに収まらない非常に大規模なモデルのトレーニングを可能にします。

FSDPを使用する場合

FSDP は次の場合に使用します。

モデルが大きすぎて、単一のGPUのメモリに収まりきりません
20B ～ 120B+ の範囲でモデルをトレーニングする必要があります
DDPが提供する以上のメモリ効率が必要な場合

単一の GPU メモリに収まる小型モデルの場合は、単純化のためにDDPを検討してください。高度なメモリ最適化機能については、 DeepSpeed を参照してください。

FSDP2 を使用して 1,000 万のパラメーターでTransformerモデルをトレーニングする

次のノートブックは、 FSDP2ライブラリを使用した 1,000 万のパラメーターのTransformerモデルの分散トレーニングを示しています。

PyTorch FSDP

Open notebook in new tab

TRLとFSDPを使用したOpenAI GPT-OSS 120Bモデルのトレーニング

このノートブックでは、 FSDP2とTransformer Reinforcement Learning (TRL)ライブラリを使用して、GPT-OSS 120B モデルで教師ありファインチューニング (SFT) を実行する方法を示します。この例では、FSDP を利用してメモリ消費量を削減し、DDP を利用して 8 つの H100 GPU にわたってグローバルバッチサイズを拡張します。

TRL FSDP

Open notebook in new tab

FSDPを使用する場合​

FSDP2 を使用して 1,000 万のパラメーターでTransformerモデルをトレーニングする​

PyTorch FSDP

TRLとFSDPを使用したOpenAI GPT-OSS 120Bモデルのトレーニング​

TRL FSDP

FSDPを使用する場合

FSDP2 を使用して 1,000 万のパラメーターでTransformerモデルをトレーニングする

TRLとFSDPを使用したOpenAI GPT-OSS 120Bモデルのトレーニング