メインコンテンツまでスキップ

マルチGPU分散トレーニング

備考

ベータ版

この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。「Databricks プレビューの管理」を参照してください。

このページには、AI Runtimeを使用したマルチGPU分散トレーニングのノートブック例が掲載されています。これらの例は、パフォーマンスを向上させるために、複数のGPUとノードにわたってトレーニングを拡張する方法を示しています。

注記

H100 GPUでは、マルチGPU分散トレーニングがサポートされています。

並列処理の手法を選択してください

複数のGPUにわたってモデルトレーニングを拡張する場合、適切な並列処理手法の選択は、モデルのサイズ、利用可能なGPUメモリ、およびパフォーマンス要件によって異なります。

テクニック

いつ使うか

DDP(分散データ並列処理)

フルモデルは単一のGPUメモリに収まるため、データスループットを拡張する必要がある。

FSDP(完全シャーディングデータ並列処理)

単一のGPUメモリに収まらない非常に大きなモデル

ディープスピードゼロ

高度なメモリ最適化を必要とする大規模モデル

各技術の詳細については、 DDPFSDP 、およびDeepSpeedを参照してください。

技法とフレームワーク別のノートブック例

以下の表は、使用しているフレームワーク/ライブラリと適用されている並列処理手法別に、サンプルノートブックを整理したものです。1つのセルに複数のノートブックが表示される場合があります。

さあ始めましょう

分散トレーニング用のサーバレス GPU Pythonライブラリの使用を開始するには、次のチュートリアルを使用します。

チュートリアル

説明

H100 GPU搭載AI Runtime

H100 アクセラレータでDatabricks AI Runtimeを使用し、serverless_gpu Pythonライブラリを使用して分散 GPU ワークロードを実行する方法を学びます。