マルチGPUおよびマルチノード分散トレーニング

備考

ベータ版

この機能はベータ版です。

このページでは、サーバレス GPU コンピュートを使用したマルチノードおよびマルチ GPU 分散トレーニングのノートブックの例を掲載しています。これらの例は、パフォーマンスを向上させるために複数の GPU とノード間でトレーニングをスケーリングする方法を示しています。

注記

マルチノード分散トレーニングは、現在 A10 GPU でのみサポートされています。マルチGPU分散トレーニングは、A10GPUとH100GPUの両方でサポートされています。

並列処理技術を選択する

複数の GPU にわたってモデルトレーニングをスケーリングする場合、適切な並列処理手法の選択は、モデルのサイズ、使用可能な GPU メモリ、およびパフォーマンス要件によって異なります。

テクニック	いつ使うか
DDP（分散データパラレル）	完全なモデルは単一の GPU メモリに収まるため、データスループットを拡張する必要がある
FSDP (完全シャードデータパラレル)	単一のGPUメモリに収まらない非常に大きなモデル
ディープスピードゼロ	高度なメモリ最適化を必要とする大規模モデル

各技術の詳細については、 DDP 、 FSDP 、およびDeepSpeedを参照してください。

テクニックとフレームワーク別のノートブックの例

次の表は、使用しているフレームワーク/ライブラリと適用されている並列処理手法別にサンプルノートブックを整理したものです。1 つのセルに複数のノートブックが表示される場合があります。

フレームワーク/ライブラリ	DDPの例	FSDPの例	DeepSpeedの例
PyTorch（ネイティブ）	シンプルMLPニューラルネットワーク MLflow 3.0 統合（アイリス分類）	10M問題変圧器	—
TRL + PyTorch	GPT-OSSを微調整する	GPT-OSSを微調整する	Llama 1Bを微調整する
怠惰な	Llama 3.2 3Bの微調整	—	—
レイトレーニングする	FashionMNIST（コンピュータービジョン）上のResNet18	—	—
PyTorch Lightning	2タワー型レコメンデーションシステム	—	—

始めましょう

以下のノートブックでは、サーバレス GPU Python API を使用して分散トレーニング用の複数の A10 GPU を起動する方法の基本的な例を示します。

サーバレスGPU API ：A10スターター

Open notebook in new tab

以下のノートブックでは、サーバレス GPU Python API を使用して、分散トレーニング用の複数の H100 GPU を起動する方法の基本的な例を示します。

サーバレスGPU API ：H100スターター

Open notebook in new tab

このノートブックでは、サーバレス GPU コンピュートでのディープラーニングのユースケースのためにDatabricksでMLflowを使用するためのベストプラクティスを紹介します。このノートブックは、サーバレス GPU APIを使用して、DDP を使用してリモート A10 GPU 上で単純な分類モデルの分散トレーニングを起動します。トレーニングは MLflow 実行として追跡されます。

MLflow 3.0 を使用した分散トレーニング

Open notebook in new tab

並列処理技術を選択する​

テクニックとフレームワーク別のノートブックの例​

始めましょう​

サーバレスGPU API ：A10スターター

サーバレスGPU API ：H100スターター

MLflow 3.0 を使用した分散トレーニング

並列処理技術を選択する

テクニックとフレームワーク別のノートブックの例

始めましょう