分散トレーニング

可能であれば、 Databricks は 1 台のマシンでニューラルネットワークをトレーニングすることをお勧めします。トレーニングと推論のための分散コードは、単一マシンのコードよりも複雑で、通信のオーバーヘッドのために遅くなります。ただし、モデルまたはデータが大きすぎて 1 台のマシンのメモリに収まらない場合は、分散トレーニングと推論を検討する必要があります。これらのワークロードのために、Databricks Runtime ML には TorchDistributor、DeepSpeed ディストリビューター、Ray パッケージが含まれています。

Databricks は、 pyspark.ml.connect モジュールを使用した Spark ML モデルの分散トレーニングも提供しています。

DeepSpeedディストリビューター

DeepSpeed ディストリビューターは TorchDistributor の上に構築されており、より高いコンピュート電力を必要とするモデルを持つ顧客に推奨されるソリューションですが、メモリの制約によって制限されます。 DeepSpeed は Microsoft によって開発されたオープンソースライブラリであり、メモリ使用量の最適化、通信オーバーヘッドの削減、高度なパイプライン並列処理を提供します。 DeepSpeedディストリビューターによる分散トレーニングの詳細

TorchDistributor

TorchDistributorはPySparkのオープンソースモジュールで、ユーザーが Sparkクラスターで PyTorchを使用して分散トレーニングを行うのに役立つため、PyTorch トレーニングジョブをSparkジョブとして起動します。内部的には、環境とワーカー間の通信チャネルを初期化し、 CLI コマンドtorch.distributed.runを利用してワーカーノード間で分散トレーニングを実行します。 TorchDistributor を使用した分散トレーニングの詳細をご覧ください。

Ray

Ray は、MLワークフローやAIアプリケーションのスケーリングのための並列コンピュート処理に特化したオープンソースフレームワークです。「Ray on Databricks とは」を参照してください。

Spark ML

pyspark.ml.connect モジュールを使用して分散トレーニングを実行し、Spark ML モデルをトレーニングし、モデル推論を実行します。Databricks Runtime 17.0 以降では、Standard コンピュートリソースのデフォルトによって Spark ML が有効になっているため、完全なクラスタリングを管理することなく、Sparkの分散機械学習機能を使用できます。「Databricks Connect で Spark ML モデルを pyspark.ml.connectでトレーニングする」を参照してください。

DeepSpeedディストリビューター​

TorchDistributor​

Ray​

Spark ML​

DeepSpeedディストリビューター

TorchDistributor

Ray

Spark ML