Databricks Connect で Spark ML モデルをトレーニングする pyspark.ml.connect
備考
プレビュー
この機能は パブリック プレビュー段階です。
この記事では、 pyspark.ml.connect
モジュールを使用して分散トレーニングを実行し、Spark ML モデルをトレーニングし、Databricks Connect でモデル推論を実行する方法を示す例を示します。
pyspark.ml.connect
とは?
Spark 3.5 では、Spark Connect モードと Databricks Connect をサポートするために設計された pyspark.ml.connect
が導入されています。 Databricks Connect の詳細については、こちらをご覧ください。
pyspark.ml.connect
モジュールは、分類、特徴トランスフォーマー、ML パイプライン、クロス検証など、一般的な学習アルゴリズムとユーティリティで構成されています。このモジュールは、従来の pyspark.ml
モジュールと同様のインターフェイスを提供しますが、pyspark.ml.connect
モジュールには現在、 のアルゴリズムのサブセットしか含まれpyspark.ml
。サポートされているアルゴリズムを以下に示します。
- 分類アルゴリズム:
pyspark.ml.connect.classification.LogisticRegression
- 特徴量変換:
pyspark.ml.connect.feature.MaxAbsScaler
およびpyspark.ml.connect.feature.StandardScaler
- 評価者:
pyspark.ml.connect.RegressionEvaluator
、pyspark.ml.connect.BinaryClassificationEvaluator
、MulticlassClassificationEvaluator
- パイプライン:
pyspark.ml.connect.pipeline.Pipeline
- モデルチューニング:
pyspark.ml.connect.tuning.CrossValidator
必要条件
- クラスターで Databricks Connect を設定します。 については、コンピュートの設定Databricks Connect を参照してください。
- Databricks Runtime 14.0 ML 以降がインストールされている。
- クラスターアクセスモードは
Assigned
です。
ノートブックの例
次のノートブックは、Databricks Connect で分散 ML を使用する方法を示しています。
Databricks Connect の分散 ML
pyspark.ml.connect
APIsに関する参考情報については、DatabricksApache Spark APIリファレンスをお勧めします