horovod.spark
: 分散ディープラーニング with Horovod
horovod.spark
パッケージを使用して機械学習モデルの分散トレーニングを実行する方法について説明します。
horovod.spark
Databricks
Databricks は、Keras と PyTorch を使用して機械学習パイプラインで使用できる推定器 API を提供する horovod.spark
パッケージをサポートしています。 詳細については、 Databricks の Horovod に関するセクションを含む Spark の Horovod を参照してください。
注
Databricks は、依存関係を持つ
horovod
パッケージをインストールします。 これらの依存関係をアップグレードまたはダウングレードすると、互換性の問題が発生する可能性があります。Kerasでカスタムコールバックで
horovod.spark
を使用する場合は、TensorFlow SavedModel 形式でモデルを保存する必要があります。TensorFlow 2.x では、ファイル名に
.tf
サフィックスを使用します。TensorFlow 1.x では、オプション
save_weights_only=True
を設定します。
要件
Databricks Runtime 機械学習 7.4 以上。
注
horovod.spark
pyarrow バージョン 11.0 以降はサポートされていません (関連するGitHub の問題を参照)。 Databricks Runtime 15.0 ML には、pyarrow バージョン 14.0.1 が含まれています。 Databricks Runtime 15.0 ML 以降でhorovod.spark
を使用するには、11.0 より前のバージョンを指定して pyarrow を手動でインストールする必要があります。