pyspark.ml.connect
を用いDatabricks Connect経由でSpark MLのモデルをトレーニングする
プレビュー
この機能はパブリックプレビュー段階です。
この記事では、 pyspark.ml.connect
モジュールを使用して分散トレーニングを実行し、Spark 機械学習モデルをトレーニングし、Databricks Connect でモデル推論を実行する方法を示す例を示します。
pyspark.ml.connect
とは何ですか?
Spark 3.5 では、Spark 接続モードと Databricks Connectをサポートするために設計されたpyspark.ml.connect
が導入されています。 Databricks Connect の詳細については、こちらを参照してください。
pyspark.ml.connect
モジュールは、分類、特徴量変換、機械学習パイプライン、クロスバリデーションなどの一般的な学習アルゴリズムとユーティリティで構成されています。このモジュールは、従来の 'PySpark.ml' モジュールと同様のインターフェイスを提供しますが、pyspark.ml.connect
モジュールには現在、pyspark.ml
のアルゴリズムのサブセットのみが含まれています。 サポートされているアルゴリズムを以下に示します。
分類アルゴリズム:
pyspark.ml.connect.classification.LogisticRegression
特徴量変換:
pyspark.ml.connect.feature.MaxAbsScaler
およびpyspark.ml.connect.feature.StandardScaler
評価者:
pyspark.ml.connect.RegressionEvaluator
、pyspark.ml.connect.BinaryClassificationEvaluator
およびMulticlassClassificationEvaluator
パイプライン:
pyspark.ml.connect.pipeline.Pipeline
モデルのチューニング:
pyspark.ml.connect.tuning.CrossValidator
要件
クラスターに Databricks Connect を設定します。 については、 コンピュートの設定Databricks Connect を参照してください。
Databricks Runtime 14.0 以上の機械学習がインストールされていること。
クラスター アクセス モードは
Assigned
です。
サンプルノートブック
次のノートブックは、Databricks Connect で分散機械学習を使用する方法を示しています。
APIsでpyspark.ml.connect
のDatabricks に関するリファレンス情報については、 Apache Spark API リファレンス 推奨しています