メインコンテンツまでスキップ

マルチGPUおよびマルチノード分散トレーニング

備考

ベータ版

この機能は ベータ版です。

このページでは、サーバレス GPU コンピュートを使用したマルチノードおよびマルチ GPU 分散トレーニングのノートブックの例を掲載しています。 これらの例は、パフォーマンスを向上させるために複数の GPU とノード間でトレーニングをスケーリングする方法を示しています。

注記

マルチノード分散トレーニングは、現在 A10 GPU でのみサポートされています。マルチGPU分散トレーニングは、A10GPUとH100GPUの両方でサポートされています。

これらのノートブックを実行する前に、 ベスト プラクティス チェックリストを参照してください。

サーバレス GPU API: A10 starter

以下のノートブックでは、 サーバレス GPU Python API を使用して分散トレーニング用の複数の A10 GPU を起動する方法の基本的な例を示します。

Notebook

Open notebook in new tab

サーバレス GPU API: H100 starter

以下のノートブックでは、 サーバレス GPU Python API を使用して、分散トレーニング用の複数の H100 GPU を起動する方法の基本的な例を示します。

Notebook

Open notebook in new tab

MLflow 3.0 を使用した分散トレーニング

このノートブックでは、サーバレス GPU コンピュートでのディープラーニングのユースケースのためにDatabricksでMLflowを使用するためのベスト プラクティスを紹介します。 このノートブックは、サーバレス GPU APIを使用して、リモート A10 GPU 上で単純な分類モデルの分散トレーニングを起動します。 トレーニングは MLflow 実行として追跡されます。

Notebook

Open notebook in new tab

PyTorchのDistributed Data Parallel(DDP)を使用した分散トレーニング

次のノートブックは、サーバーレス GPU コンピュートを備えたDatabricks上のPyTorchの分散データ並列(DDP) モジュールを使用した、単純な多層パーセプトロン (MLP) ニューラル ネットワークの分散トレーニングを示しています。

Notebook

Open notebook in new tab

PyTorch の Fully Sharded Data Parallel (FSDP) を使用した分散トレーニング

次のノートブックでは、1,000 万個のTransformerモデルの分散トレーニングをデモしています。 DatabricksでPyTorchのFully Sharded Data Parallel (FSDP) モジュールを使用する サーバレスGPUコンピュート搭載。

Notebook

Open notebook in new tab

Rayを使用した分散トレーニング

このノートブックでは、 Databricksサーバーレス GPU クラスター上の Ray トレーニングするおよび Ray Data を使用した、FashionMNIST データセット上のPyTorch ResNet モデルの分散トレーニングを示します。 Unity Catalogストレージのセットアップ、マルチノード GPU トレーニング用の Ray の構成、 MLflowを使用したモデルのロギングと登録、モデルのパフォーマンスの評価について説明します。

Notebook

Open notebook in new tab

TRLを用いた分散型教師ありファインチューニング

このノートブックでは、 サーバレス GPU Python API を使用して、シングルノード A10 GPU で DeepSpeed ZeRO Stage 3 最適化を備えた TRL ライブラリを使用して、監視付きファインチューニング (SFT) を実行する方法を示します。 このアプローチは、マルチノード設定に拡張できます。

Notebook

Open notebook in new tab