メインコンテンツまでスキップ

DeepSpeedディストリビューターによる分散トレーニング

この記事では、 DeepSpeed ディストリビューターを使用して PyTorch ML モデルで分散トレーニングを実行する方法について説明します。

DeepSpeed ディストリビューターは TorchDistributor の上に構築されており、より高いコンピュート電力を必要とするモデルを持つ顧客に推奨されるソリューションですが、メモリの制約によって制限されます。

DeepSpeed ライブラリは、Microsoft によって開発されたオープンソース ライブラリであり、Databricks Runtime 14.0 ML 以降で使用できます。メモリ使用量の最適化、通信オーバーヘッドの削減、高度なパイプライン並列処理により、標準ハードウェアでは達成できないモデルやトレーニング手順のスケーリングが可能になります。

次に、DeepSpeed ディストリビューターが役立つシナリオの例を示します。

  • GPUメモリが不足している。
  • 大規模モデルのトレーニング。
  • バッチ推論で用いるような大規模な入力データ。

DeepSpeed を使用した分散トレーニングのサンプル ノートブック

次のノートブックの例は、DeepSpeed ディストリビューターを使用して分散トレーニングを実行する方法を示しています。

Fine-tune Llama 2 7B Chat with DeepspeedTorchDistributor ノートブック

Open notebook in new tab