DeepSpeedディストリビューターによる分散トレーニング
この記事では、 DeepSpeed ディストリビューターを使用して PyTorch ML モデルで分散トレーニングを実行する方法について説明します。
DeepSpeed ディストリビューターは TorchDistributor の上に構築されており、より高いコンピュート電力を必要とするモデルを持つ顧客に推奨されるソリューションですが、メモリの制約によって制限されます。
DeepSpeed ライブラリは、Microsoft によって開発されたオープンソース ライブラリであり、Databricks Runtime 14.0 ML 以降で使用できます。メモリ使用量の最適化、通信オーバーヘッドの削減、高度なパイプライン並列処理により、標準ハードウェアでは達成できないモデルやトレーニング手順のスケーリングが可能になります。
次に、DeepSpeed ディストリビューターが役立つシナリオの例を示します。
- GPUメモリが不足している。
- 大規模モデルのトレーニング。
- バッチ推論で用いるような大規模な入力データ。
DeepSpeed を使用した分散トレーニングのサンプル ノートブック
次のノートブックの例は、DeepSpeed ディストリビューターを使用して分散トレーニングを実行する方法を示しています。