分散データ並列処理(DDP)トレーニング
ベータ版
この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。「Databricks プレビューの管理」を参照してください。
このページには、 AI Runtimeで分散データ並列 (DDP)トレーニングを使用するためのノートブックの例が含まれています。 DDPは分散トレーニングで最も一般的な並列処理手法であり、各GPU上にモデル全体が複製され、データバッチが複数のGPUに分割されます。
DDPを使用するタイミング
DDPを使用する場面:
- あなたのモデルは単一のGPUのメモリに完全に収まります
- データスループットを向上させることでトレーニングを拡張したい
- ほとんどのフレームワークでは、自動サポートを備えた最もシンプルな分散型トレーニング手法が必要です。
単一のGPUメモリに収まらないような大規模なモデルの場合は、 FSDPまたはDeepSpeedの使用を検討してください。
例
チュートリアル | 説明 |
|---|---|
このノートブックは、サーバレス GPU リソースを備えたDatabricks上のPyTorchの DDP モジュールを使用した、単純な多層パーセプトロン (MLP) ニューラル ネットワークの分散トレーニングを示します。 | |
このノートブックでは、サーバレス GPU Python API使用して、トランス強化学習 (TRL) ライブラリを使用してHugging Faceから GPT-OSS 20B モデルで教師ありファインTransformer (SFT)を実行する方法を示します。 この例では、ノード上の8つのH100 GPUすべてでDDPを活用して、グローバルバッチサイズを拡張しています。 | |
このノートブックでは、サーバレス GPU Python API使用して、8 つの A10 GPU 全体でUnslothLibを使用してLlama 3.2 3B モデルを微調整する方法を示します。 Unslothはメモリ効率の良いトレーニング最適化機能を提供し、内部的にはHugging Face Accelerateを通じてDDPを使用しています。 | |
このノートブックでは、サーバレス GPU Python API使用して、16 個の H100 GPU にわたるAxolotlライブラリ を使用して Olmo3 7B モデルを微調整する方法を示します。 Axolotl は、最新の LLM のトレーニング後のチューニングと微調整を合理化するように設計されています。 | |
このノートブックでは、サーバレス GPU でPyTorch Lightningを使用して 2 タワー推奨モデルをトレーニングする方法を示します。 PyTorch Lightningマルチ GPU トレーニング用の DDP 構成を自動的に処理する高レベルのインターフェイスを提供します。 この例には、モザイク ストリーミング (MDS) 形式を使用したデータの準備と、A10 または H100 GPU にわたる分散トレーニングが含まれています。 完全なノートブックについては、ディープラーニングの推奨例ページをご覧ください。
|
PyTorch DDPを使用して単純な多層パーセプトロン(MLP)ニューラルネットワークをトレーニングする
次のノートブックは、サーバーレス GPU リソースを備えたDatabricks上のPyTorchの DDP モジュールを使用した、単純な多層パーセプトロン (MLP) ニューラル ネットワークの分散トレーニングを示しています。
PyTorch DDP
PyTorch Lightningを使用して2タワー型レコメンデーションシステムをトレーニングする
このノートブックでは、サーバレス GPU コンピュート上でPyTorch Lightningを使用して 2 タワー推奨モデルをトレーニングする方法を示します。 PyTorch Lightningマルチ GPU トレーニング用の DDP 構成を自動的に処理する高レベルのインターフェイスを提供します。 この例には、モザイク ストリーミング (MDS) 形式を使用したデータの準備と、A10 または H100 GPU にわたる分散トレーニングが含まれています。
完全なノートブックについては、ディープラーニングの推奨例ページをご覧ください。
- データ準備とMDSフォーマット変換
- PyTorch Lightningを使用した2タワー型レコメンダーのトレーニング