マルチGPU分散トレーニング
ベータ版
この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。「Databricks プレビューの管理」を参照してください。
このページには、AI Runtimeを使用したマルチGPU分散トレーニングのノートブック例が掲載されています。これらの例は、パフォーマンスを向上させるために、複数のGPUとノードにわたってトレーニングを拡張する方法を示しています。
H100 GPUでは、マルチGPU分散トレーニングがサポートされています。
並列処理の手法を選択してください
複数のGPUにわたってモデルトレーニングを拡張する場合、適切な並列処理手法の選択は、モデルのサイズ、利用可能なGPUメモリ、およびパフォーマンス要件によって異なります。
テクニック | いつ使うか |
|---|---|
DDP(分散データ並列処理) | フルモデルは単一のGPUメモリに収まるため、データスループットを拡張する必要がある。 |
FSDP(完全シャーディングデータ並列処理) | 単一のGPUメモリに収まらない非常に大きなモデル |
ディープスピードゼロ | 高度なメモリ最適化を必要とする大規模モデル |
各技術の詳細については、 DDP 、 FSDP 、およびDeepSpeedを参照してください。
技法とフレームワーク別のノートブック例
以下の表は、使用しているフレームワーク/ライブラリと適用されている並列処理手法別に、サンプルノートブックを整理したものです。1つのセルに複数のノートブックが表示される場合があります。
フレームワーク/ライブラリ | DDPの例 | FSDPの例 | DeepSpeedの例 |
|---|---|---|---|
PyTorch(ネイティブ) | — | ||
— | — | ||
— | — | ||
— | — | ||
— | — |
さあ始めましょう
分散トレーニング用のサーバレス GPU Pythonライブラリの使用を開始するには、次のチュートリアルを使用します。
チュートリアル | 説明 |
|---|---|
H100 アクセラレータでDatabricks AI Runtimeを使用し、serverless_gpu Pythonライブラリを使用して分散 GPU ワークロードを実行する方法を学びます。 |