マルチGPU分散トレーニング

備考

ベータ版

この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。「Databricks プレビューの管理」を参照してください。

このページには、AI Runtimeを使用したマルチGPU分散トレーニングのノートブック例が掲載されています。これらの例は、パフォーマンスを向上させるために、複数のGPUとノードにわたってトレーニングを拡張する方法を示しています。

注記

H100 GPUでは、マルチGPU分散トレーニングがサポートされています。

並列処理の手法を選択してください

複数のGPUにわたってモデルトレーニングを拡張する場合、適切な並列処理手法の選択は、モデルのサイズ、利用可能なGPUメモリ、およびパフォーマンス要件によって異なります。

テクニック	いつ使うか
DDP（分散データ並列処理）	フルモデルは単一のGPUメモリに収まるため、データスループットを拡張する必要がある。
FSDP（完全シャーディングデータ並列処理）	単一のGPUメモリに収まらない非常に大きなモデル
ディープスピードゼロ	高度なメモリ最適化を必要とする大規模モデル

各技術の詳細については、 DDP 、 FSDP 、およびDeepSpeedを参照してください。

以下の表は、使用しているフレームワーク／ライブラリと適用されている並列処理手法別に、サンプルノートブックを整理したものです。1つのセルに複数のノートブックが表示される場合があります。

フレームワーク／ライブラリ	DDPの例	FSDPの例	DeepSpeedの例
PyTorch（ネイティブ）	シンプルMLPニューラルネットワーク RetinaNet画像検出	10M問題変圧器	—
ハグフェイスTRL	Gpt OSS 20B の微調整	Gpt OSS 120Bの微調整	Llama 3.2 1B の微調整
怠惰	Llama 3.2 3B の微調整	—	—
アホロートル	Olmo3 7Bを微調整する	—	—
モザイクLLMファウンドリー	Llama 3.2 8B の微調整	—	—
稲妻	2タワー型レコメンデーションシステム	—	—

分散トレーニング用のサーバレス GPU Pythonライブラリの使用を開始するには、次のチュートリアルを使用します。

チュートリアル	説明
H100 GPU搭載AI Runtime	H100 アクセラレータでDatabricks AI Runtimeを使用し、serverless_gpu Pythonライブラリを使用して分散 GPU ワークロードを実行する方法を学びます。