メインコンテンツまでスキップ

完全シャーディングデータ並列処理(FSDP)トレーニング

備考

ベータ版

この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。「Databricks プレビューの管理」を参照してください。

このページには、 AI RuntimeでFully Sharded Data Parallel (FSDP)トレーニングを使用するためのノートブックの例が含まれています。 FSDP シャード モデルは、GPU 全体にわたって、勾配、オプティマイザーの状態をモデル化し、単一の GPU のメモリに収まらない非常に大規模なモデルのトレーニングを可能にします。

FSDPを使用するタイミング

FSDPを使用するタイミング:

  • モデルが大きすぎて、単一のGPUのメモリに収まりません。
  • 20B ~ 120B+ の範囲でモデルをトレーニングする必要があります
  • DDPが提供する以上のメモリ効率を求めている

シングルGPUメモリに収まる小型モデルの場合は、シンプルさを考慮してDDPを検討してください。高度なメモリ最適化機能については、 DeepSpeed を参照してください。

チュートリアル

説明

FSDP2 を使用して 1,000 万の問題でTransformerモデルをトレーニングする

このノートブックでは、 FSDP2ライブラリを使用した 1,000 万の不安Transformerモデルの分散トレーニングを示します。

TRLとFSDPを使用してOpenAI GPT-OSS 120Bモデルをトレーニングする

このノートブックでは、 FSDP2Transformer Reinforcement Learning(TRL)ライブラリを使用して、GPT-OSS 120Bモデルに対して教師ありファインチューニング(SFT)を実行する方法を示します。この例では、FSDPを活用してメモリ消費量を削減し、DDPを活用してグローバルバッチサイズを8つのH100 GPU全体に拡張しています。