ensinando modelos Spark ML no Databricks Connect com pyspark.ml.connect
Visualização
Este recurso está em visualização pública.
Este artigo fornece um exemplo que demonstra como usar o módulo pyspark.ml.connect
para realizar treinamento distribuído para ensinar modelos Spark ML e inferência de modelo de execução no Databricks Connect.
O que é pyspark.ml.connect
?
O Spark 3.5 apresenta pyspark.ml.connect
, que foi projetado para dar suporte ao modo Spark Connect e ao Databricks Connect. Saiba mais sobre o Databricks Connect.
O módulo pyspark.ml.connect
consiste em algoritmos de aprendizagem comuns e russos, incluindo classificação, transformadores de recursos, ML pipelines e validação cruzada. Este módulo fornece interfaces semelhantes ao módulo `PySpark.ml` herdado, mas o módulo pyspark.ml.connect
atualmente contém apenas um subconjunto dos algoritmos em pyspark.ml
. Os algoritmos suportados estão listados abaixo:
Algoritmo de classificação:
pyspark.ml.connect.classification.LogisticRegression
transformadores de recurso:
pyspark.ml.connect.feature.MaxAbsScaler
epyspark.ml.connect.feature.StandardScaler
Avaliador:
pyspark.ml.connect.RegressionEvaluator
,pyspark.ml.connect.BinaryClassificationEvaluator
eMulticlassClassificationEvaluator
Pipeline:
pyspark.ml.connect.pipeline.Pipeline
Ajuste do modelo:
pyspark.ml.connect.tuning.CrossValidator
Requisitos
Configure o Databricks Connect em seus clusters. Consulte a configuração de computação para Databricks Connect.
Databricks Runtime 14.0 ML ou superior instalado.
modo de acesso de clusters de
Assigned
.
Notebook de exemplo
O Notebook a seguir demonstra como usar o ML distribuído no Databricks Connect:
Para obter informações de referência sobre APIs em pyspark.ml.connect
, a Databricks recomenda a referência da Spark API