メインコンテンツまでスキップ

Databricks Connect で Spark ML モデルをトレーニングする pyspark.ml.connect

備考

プレビュー

この機能は パブリック プレビュー段階です。

この記事では、 pyspark.ml.connect モジュールを使用して分散トレーニングを実行し、Spark ML モデルをトレーニングし、Databricks Connect でモデル推論を実行する方法を示す例を示します。

pyspark.ml.connectとは?

Spark 3.5 では、Spark Connect モードと Databricks Connect をサポートするために設計された pyspark.ml.connect が導入されています。 Databricks Connect の詳細については、こちらをご覧ください。

pyspark.ml.connectモジュールは、分類、特徴トランスフォーマー、ML パイプライン、クロス検証など、一般的な学習アルゴリズムとユーティリティで構成されています。このモジュールは、従来の pyspark.ml モジュールと同様のインターフェイスを提供しますが、pyspark.ml.connect モジュールには現在、 のアルゴリズムのサブセットしか含まれpyspark.ml。サポートされているアルゴリズムを以下に示します。

  • 分類アルゴリズム: pyspark.ml.connect.classification.LogisticRegression
  • 特徴量変換: pyspark.ml.connect.feature.MaxAbsScaler および pyspark.ml.connect.feature.StandardScaler
  • 評価者: pyspark.ml.connect.RegressionEvaluatorpyspark.ml.connect.BinaryClassificationEvaluatorMulticlassClassificationEvaluator
  • パイプライン: pyspark.ml.connect.pipeline.Pipeline
  • モデルチューニング: pyspark.ml.connect.tuning.CrossValidator

必要条件

  • クラスターで Databricks Connect を設定します。 については、コンピュートの設定Databricks Connect を参照してください。
  • Databricks Runtime 14.0 ML 以降がインストールされている。
  • クラスターアクセスモードは Assignedです。

ノートブックの例

次のノートブックは、Databricks Connect で分散 ML を使用する方法を示しています。

Databricks Connect の分散 ML

Open notebook in new tab

pyspark.ml.connectAPIsに関する参考情報については、DatabricksApache Spark APIリファレンスをお勧めします