完全シャーディングデータ並列処理（FSDP）トレーニング

備考

ベータ版

この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。「Databricks プレビューの管理」を参照してください。

このページには、 AI RuntimeでFully Sharded Data Parallel (FSDP)トレーニングを使用するためのノートブックの例が含まれています。 FSDP シャードモデルは、GPU 全体にわたって、勾配、オプティマイザーの状態をモデル化し、単一の GPU のメモリに収まらない非常に大規模なモデルのトレーニングを可能にします。

FSDPを使用するタイミング

FSDPを使用するタイミング：

モデルが大きすぎて、単一のGPUのメモリに収まりません。
20B ～ 120B+ の範囲でモデルをトレーニングする必要があります
DDPが提供する以上のメモリ効率を求めている

シングルGPUメモリに収まる小型モデルの場合は、シンプルさを考慮してDDPを検討してください。高度なメモリ最適化機能については、 DeepSpeed を参照してください。

例

チュートリアル	説明
FSDP2 を使用して 1,000 万の問題でTransformerモデルをトレーニングする	このノートブックでは、 FSDP2ライブラリを使用した 1,000 万の不安Transformerモデルの分散トレーニングを示します。
TRLとFSDPを使用してOpenAI GPT-OSS 120Bモデルをトレーニングする	このノートブックでは、 FSDP2とTransformer Reinforcement Learning（TRL）ライブラリを使用して、GPT-OSS 120Bモデルに対して教師ありファインチューニング（SFT）を実行する方法を示します。この例では、FSDPを活用してメモリ消費量を削減し、DDPを活用してグローバルバッチサイズを8つのH100 GPU全体に拡張しています。

チュートリアル

説明

FSDP2 を使用して 1,000 万の問題でTransformerモデルをトレーニングする

このノートブックでは、 FSDP2ライブラリを使用した 1,000 万の不安Transformerモデルの分散トレーニングを示します。

TRLとFSDPを使用してOpenAI GPT-OSS 120Bモデルをトレーニングする

このノートブックでは、 FSDP2とTransformer Reinforcement Learning（TRL）ライブラリを使用して、GPT-OSS 120Bモデルに対して教師ありファインチューニング（SFT）を実行する方法を示します。この例では、FSDPを活用してメモリ消費量を削減し、DDPを活用してグローバルバッチサイズを8つのH100 GPU全体に拡張しています。

FSDPを使用するタイミング​

例​

FSDPを使用するタイミング

例