ensinando modelos Spark ML no Databricks Connect com pyspark.ml.connect

Visualização

Este recurso está em visualização pública.

Este artigo fornece um exemplo que demonstra como usar o módulo pyspark.ml.connect para realizar treinamento distribuído para ensinar modelos Spark ML e inferência de modelo de execução no Databricks Connect.

O que é pyspark.ml.connect?

O Spark 3.5 apresenta pyspark.ml.connect , que foi projetado para dar suporte ao modo Spark Connect e ao Databricks Connect. Saiba mais sobre o Databricks Connect.

O módulo pyspark.ml.connect consiste em algoritmos de aprendizagem comuns e russos, incluindo classificação, transformadores de recursos, ML pipelines e validação cruzada. Este módulo fornece interfaces semelhantes ao módulo `PySpark.ml` herdado, mas o módulo pyspark.ml.connect atualmente contém apenas um subconjunto dos algoritmos em pyspark.ml. Os algoritmos suportados estão listados abaixo:

  • Algoritmo de classificação: pyspark.ml.connect.classification.LogisticRegression

  • transformadores de recurso: pyspark.ml.connect.feature.MaxAbsScaler e pyspark.ml.connect.feature.StandardScaler

  • Avaliador: pyspark.ml.connect.RegressionEvaluator, pyspark.ml.connect.BinaryClassificationEvaluator e MulticlassClassificationEvaluator

  • Pipeline: pyspark.ml.connect.pipeline.Pipeline

  • Ajuste do modelo: pyspark.ml.connect.tuning.CrossValidator

Requisitos

Notebook de exemplo

O Notebook a seguir demonstra como usar o ML distribuído no Databricks Connect:

ML distribuído no Databricks Connect

Abra o bloco de anotações em outra guia

Para obter informações de referência sobre APIs em pyspark.ml.connect, a Databricks recomenda a referência da Spark API