完全シャーディングデータ並列(FSDP)トレーニング
備考
ベータ版
この機能はベータ版です。
このページには、サーバレス GPU コンピュートで Fully Sharded Data Parallel (FSDP) トレーニングを使用するためのノートブックの例が含まれています。 これらの例は、パフォーマンス改善のために複数のGPUとノードにわたってトレーニングをスケールする方法を示しています。
FSDP2 を使用して 1,000 万パラメーターのTransformerモデルをトレーニングする
次のノートブックは、FSDP2ライブラリを使用した1,000 万パラメーターのTransformerモデルの分散トレーニングを示しています。