完全シャーディングデータ並列(FSDP)トレーニング
備考
ベータ版
この機能はベータ版です。
このページには、サーバレス GPU コンピュートでFully Sharded Data Parallel (FSDP) トレーニングを使用するためのノートブックの例が含まれています。 FSDP シャード モデルは、GPU 全体にわたって、勾配、オプティマイザーの状態をモデル化し、単一の GPU のメモリに収まらない非常に大規模なモデルのトレーニングを可能にします。
FSDPを使用する場合
FSDP は次の場合に使用します。
- モデルが大きすぎて、単一のGPUのメモリに収まりきりません
- 20B ~ 120B+ の範囲でモデルをトレーニングする必要があります
- DDPが提供する以上のメモリ効率が必要な場合
単一の GPU メモリに収まる小型モデルの場合は、単純化のためにDDPを検討してください。高度なメモリ最適化機能については、 DeepSpeed を参照してください。
FSDP2 を使用して 1,000 万のパラメーターでTransformerモデルをトレーニングする
次のノートブックは、 FSDP2ライブラリを使用した 1,000 万のパラメーターのTransformerモデルの分散トレーニングを示しています。
PyTorch FSDP
TRLとFSDPを使用したOpenAI GPT-OSS 120Bモデルのトレーニング
このノートブックでは、 FSDP2とTransformer Reinforcement Learning (TRL)ライブラリを使用して、GPT-OSS 120B モデルで教師ありファインチューニング (SFT) を実行する方法を示します。 この例では、FSDP を利用してメモリ消費量を削減し、DDP を利用して 8 つの H100 GPU にわたってグローバル バッチ サイズを拡張します。