完全シャーディングデータ並列(FSDP)トレーニング
備考
ベータ版
この機能はベータ版です。
このページには、サーバレス GPU で Fully Sharded Data Parallel (FSDP) トレーニングを使用するためのノートブックの例が含まれています コンピュート。 これらの例は、複数のGPUとノードにわたってトレーニングをスケールする方法を示しています。 パフォーマンスが向上しました。
FSDP2 を使用して 1,000 万の問題でTransformerモデルをトレーニングする
次のノートブックは、1,000 万の懸念Transformerモデルの分散トレーニングを示しています。 FSDP2ライブラリを使用します。