pyspark.ml.connectを用いDatabricks Connect経由でSpark MLのモデルをトレーニングする

プレビュー

この機能はパブリックプレビュー段階です。

この記事では、 pyspark.ml.connect モジュールを使用して分散トレーニングを実行し、Spark 機械学習モデルをトレーニングし、Databricks Connect でモデル推論を実行する方法を示す例を示します。

pyspark.ml.connectとは何ですか?

Spark 3.5 では、Spark 接続モードと Databricks Connectをサポートするために設計されたpyspark.ml.connectが導入されています。 Databricks Connect の詳細については、こちらを参照してください。

pyspark.ml.connectモジュールは、分類、特徴量変換、機械学習パイプライン、クロスバリデーションなどの一般的な学習アルゴリズムとユーティリティで構成されています。このモジュールは、従来の 'PySpark.ml' モジュールと同様のインターフェイスを提供しますが、pyspark.ml.connect モジュールには現在、pyspark.ml のアルゴリズムのサブセットのみが含まれています。 サポートされているアルゴリズムを以下に示します。

  • 分類アルゴリズム: pyspark.ml.connect.classification.LogisticRegression

  • 特徴量変換: pyspark.ml.connect.feature.MaxAbsScaler および pyspark.ml.connect.feature.StandardScaler

  • 評価者: pyspark.ml.connect.RegressionEvaluatorpyspark.ml.connect.BinaryClassificationEvaluator および MulticlassClassificationEvaluator

  • パイプライン: pyspark.ml.connect.pipeline.Pipeline

  • モデルのチューニング: pyspark.ml.connect.tuning.CrossValidator

要件

  • クラスターに Databricks Connect を設定します。 「 Databricks Connect のクラスター構成」を参照してください。

  • Databricks Runtime 14.0 以上の機械学習がインストールされていること。

  • クラスター アクセス モードは Assignedです。

サンプルノートブック

次のノートブックは、Databricks Connect で分散機械学習を使用する方法を示しています。

Databricks Connect 上の分散機械学習

ノートブックを新しいタブで開く

APIsでpyspark.ml.connectのDatabricks に関するリファレンス情報については、 Apache Spark API リファレンス 推奨していま