メインコンテンツまでスキップ

Databricks Connect での Spark ML モデルのトレーニング: pyspark.ml.connect

備考

プレビュー

この機能は パブリック プレビュー段階です。

この記事では、 pyspark.ml.connect モジュールを使用して分散トレーニングを実行し、Spark ML モデルをトレーニングし、Databricks Connect でモデル推論を実行する方法を示す例を示します。

pyspark.ml.connectとは?

Spark 3.5 では、Spark Connect モードと Databricks Connect をサポートするために設計された pyspark.ml.connect が導入されています。 Databricks Connect の詳細については、こちらをご覧ください。

pyspark.ml.connectモジュールは、分類、特徴トランスフォーマー、ML パイプライン、クロス検証など、一般的な学習アルゴリズムとユーティリティで構成されています。このモジュールは、従来の pyspark.ml モジュールと同様のインターフェイスを提供しますが、pyspark.ml.connect モジュールには現在、 のアルゴリズムのサブセットしか含まれpyspark.ml。サポートされているアルゴリズムを以下に示します。

  • 分類アルゴリズム: pyspark.ml.connect.classification.LogisticRegression
  • 特徴量変換: pyspark.ml.connect.feature.MaxAbsScaler および pyspark.ml.connect.feature.StandardScaler
  • 評価者: pyspark.ml.connect.RegressionEvaluatorpyspark.ml.connect.BinaryClassificationEvaluatorMulticlassClassificationEvaluator
  • パイプライン: pyspark.ml.connect.pipeline.Pipeline
  • モデルチューニング: pyspark.ml.connect.tuning.CrossValidator

必要条件

  • クラスターで Databricks Connect を設定します。 については、Databricks Connectにおけるコンピュートの設定 を参照してください。
  • Databricks Runtime 14.0 ML 以降がインストールされている。
  • クラスターアクセスモードは Assignedです。

ノートブックの例

次のノートブックは、Databricks Connect で分散 ML を使用する方法を示しています。

Databricks Connect の分散 ML

Open notebook in new tab

pyspark.ml.connectのAPIに関する参考情報については、Apache Spark APIリファレンスをお勧めします。