Distributed トレーニング with DeepSpeed ディストリビューター
この記事では、 DeepSpeed ディストリビューター を使用して PyTorch 機械学習モデルで分散トレーニングを実行する方法について説明します。
DeepSpeed ディストリビューターは TorchDistributor の上に構築されており、より高いコンピュート電力を必要とするが、メモリの制約によって制限されるモデルを持つお客様に推奨されるソリューションです。
DeepSpeed ライブラリは、 Microsoft によって開発されたオープンソース ライブラリであり、 Databricks Runtime 14.0 機械学習以降で使用できます。最適化されたメモリ使用量、通信オーバーヘッドの削減、高度なパイプライン並列処理により、標準のハードウェアでは実現できないモデルやトレーニングプロシージャのスケーリングが可能になります。
次に、DeepSpeed ディストリビュータが有益なシナリオの例を示します。
GPUメモリが不足しています。
ラージモデルトレーニング.
バッチ推論中のような大きな入力データ。