pyspark.ml.connect
を用いDatabricks Connect経由でSpark MLのモデルをトレーニングする
プレビュー
この機能はパブリックプレビュー段階です。
この記事では、 pyspark.ml.connect
モジュールを使用して分散トレーニングを実行し、Spark 機械学習モデルをトレーニングし、Databricks Connect でモデル推論を実行する方法を示す例を示します。
pyspark.ml.connect
とは何ですか?
Spark 3.5 では、Spark 接続モードと Databricks Connectをサポートするために設計されたpyspark.ml.connect
が導入されています。 Databricks Connect の詳細については、こちらを参照してください。
pyspark.ml.connect
モジュールは、分類、特徴量変換、機械学習パイプライン、クロスバリデーションなどの一般的な学習アルゴリズムとユーティリティで構成されています。このモジュールは、従来の 'PySpark.ml' モジュールと同様のインターフェイスを提供しますが、pyspark.ml.connect
モジュールには現在、pyspark.ml
のアルゴリズムのサブセットのみが含まれています。 サポートされているアルゴリズムを以下に示します。
分類アルゴリズム:
pyspark.ml.connect.classification.LogisticRegression
特徴量変換:
pyspark.ml.connect.feature.MaxAbsScaler
およびpyspark.ml.connect.feature.StandardScaler
評価者:
pyspark.ml.connect.RegressionEvaluator
、pyspark.ml.connect.BinaryClassificationEvaluator
およびMulticlassClassificationEvaluator
パイプライン:
pyspark.ml.connect.pipeline.Pipeline
モデルのチューニング:
pyspark.ml.connect.tuning.CrossValidator
要件
クラスターに Databricks Connect を設定します。 「 Databricks Connect のクラスター構成」を参照してください。
Databricks Runtime 14.0 以上の機械学習がインストールされていること。
クラスター アクセス モードは
Assigned
です。
サンプルノートブック
次のノートブックは、Databricks Connect で分散機械学習を使用する方法を示しています。
APIsでpyspark.ml.connect
のDatabricks に関するリファレンス情報については、 Apache Spark API リファレンス 推奨しています