完全シャーディングデータ並列処理(FSDP)トレーニング
備考
ベータ版
この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。「Databricks プレビューの管理」を参照してください。
このページには、 AI RuntimeでFully Sharded Data Parallel (FSDP)トレーニングを使用するためのノートブックの例が含まれています。 FSDP シャード モデルは、GPU 全体にわたって、勾配、オプティマイザーの状態をモデル化し、単一の GPU のメモリに収まらない非常に大規模なモデルのトレーニングを可能にします。
FSDPを使用するタイミング
FSDPを使用するタイミング:
- モデルが大きすぎて、単一のGPUのメモリに収まりません。
- 20B ~ 120B+ の範囲でモデルをトレーニングする必要があります
- DDPが提供する以上のメモリ効率を求めている
シングルGPUメモリに収まる小型モデルの場合は、シンプルさを考慮してDDPを検討してください。高度なメモリ最適化機能については、 DeepSpeed を参照してください。
例
チュートリアル | 説明 |
|---|---|
このノートブックでは、 FSDP2ライブラリを使用した 1,000 万の不安Transformerモデルの分散トレーニングを示します。 | |
このノートブックでは、 FSDP2とTransformer Reinforcement Learning(TRL)ライブラリを使用して、GPT-OSS 120Bモデルに対して教師ありファインチューニング(SFT)を実行する方法を示します。この例では、FSDPを活用してメモリ消費量を削減し、DDPを活用してグローバルバッチサイズを8つのH100 GPU全体に拡張しています。 |