メインコンテンツまでスキップ

分散データ並列処理(DDP)トレーニング

備考

ベータ版

この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。「Databricks プレビューの管理」を参照してください。

このページには、 AI Runtimeで分散データ並列 (DDP)トレーニングを使用するためのノートブックの例が含まれています。 DDPは分散トレーニングで最も一般的な並列処理手法であり、各GPU上にモデル全体が複製され、データバッチが複数のGPUに分割されます。

DDPを使用するタイミング

DDPを使用する場面:

  • あなたのモデルは単一のGPUのメモリに完全に収まります
  • データスループットを向上させることでトレーニングを拡張したい
  • ほとんどのフレームワークでは、自動サポートを備えた最もシンプルな分散型トレーニング手法が必要です。

単一のGPUメモリに収まらないような大規模なモデルの場合は、 FSDPまたはDeepSpeedの使用を検討してください。

チュートリアル

説明

PyTorch DDPを使用して単純な多層パーセプトロン(MLP)ニューラルネットワークをトレーニングする

このノートブックは、サーバレス GPU リソースを備えたDatabricks上のPyTorchの DDP モジュールを使用した、単純な多層パーセプトロン (MLP) ニューラル ネットワークの分散トレーニングを示します。

TRLとDDPを使用して8xH100上でOpenAI GPT-OSS 20Bモデルをトレーニングする

このノートブックでは、サーバレス GPU Python API使用して、トランス強化学習 (TRL) ライブラリを使用してHugging Faceから GPT-OSS 20B モデルで教師ありファインTransformer (SFT)を実行する方法を示します。 この例では、ノード上の8つのH100 GPUすべてでDDPを活用して、グローバルバッチサイズを拡張しています。

Unsloth を使用した分散ファインチューニングLlama 3.2 3B

このノートブックでは、サーバレス GPU Python API使用して、8 つの A10 GPU 全体でUnslothLibを使用してLlama 3.2 3B モデルを微調整する方法を示します。 Unslothはメモリ効率の良いトレーニング最適化機能を提供し、内部的にはHugging Face Accelerateを通じてDDPを使用しています。

Axolotlを使用した分散ファインチューニングOlmo3 7B

このノートブックでは、サーバレス GPU Python API使用して、16 個の H100 GPU にわたるAxolotlライブラリ を使用して Olmo3 7B モデルを微調整する方法を示します。 Axolotl は、最新の LLM のトレーニング後のチューニングと微調整を合理化するように設計されています。

PyTorch Lightningを使用して2タワー型レコメンデーションシステムをトレーニングする

このノートブックでは、サーバレス GPU でPyTorch Lightningを使用して 2 タワー推奨モデルをトレーニングする方法を示します。 PyTorch Lightningマルチ GPU トレーニング用の DDP 構成を自動的に処理する高レベルのインターフェイスを提供します。 この例には、モザイク ストリーミング (MDS) 形式を使用したデータの準備と、A10 または H100 GPU にわたる分散トレーニングが含まれています。

完全なノートブックについては、ディープラーニングの推奨例ページをご覧ください。

  • データ準備とMDSフォーマット変換
  • PyTorch Lightningを使用した2タワー型レコメンダーのトレーニング

PyTorch DDPを使用して単純な多層パーセプトロン(MLP)ニューラルネットワークをトレーニングする

次のノートブックは、サーバーレス GPU リソースを備えたDatabricks上のPyTorchの DDP モジュールを使用した、単純な多層パーセプトロン (MLP) ニューラル ネットワークの分散トレーニングを示しています。

PyTorch DDP

ノートブックを新しいタブで開く

PyTorch Lightningを使用して2タワー型レコメンデーションシステムをトレーニングする

このノートブックでは、サーバレス GPU コンピュート上でPyTorch Lightningを使用して 2 タワー推奨モデルをトレーニングする方法を示します。 PyTorch Lightningマルチ GPU トレーニング用の DDP 構成を自動的に処理する高レベルのインターフェイスを提供します。 この例には、モザイク ストリーミング (MDS) 形式を使用したデータの準備と、A10 または H100 GPU にわたる分散トレーニングが含まれています。

完全なノートブックについては、ディープラーニングの推奨例ページをご覧ください。

  • データ準備とMDSフォーマット変換
  • PyTorch Lightningを使用した2タワー型レコメンダーのトレーニング