DeepSpeedディストリビューターによる分散トレーニング

この記事では、 DeepSpeed ディストリビューターを使用して PyTorch ML モデルで分散トレーニングを実行する方法について説明します。

DeepSpeed ディストリビューターは TorchDistributor の上に構築されており、より高いコンピュート電力を必要とするモデルを持つ顧客に推奨されるソリューションですが、メモリの制約によって制限されます。

DeepSpeed ライブラリは、Microsoft によって開発されたオープンソースライブラリであり、Databricks Runtime 14.0 ML 以降で使用できます。メモリ使用量の最適化、通信オーバーヘッドの削減、高度なパイプライン並列処理により、標準ハードウェアでは達成できないモデルやトレーニング手順のスケーリングが可能になります。