Treine modelos Spark ML no Databricks Connect com pyspark.ml.connect
Visualização
Esse recurso está em Public Preview.
Este artigo fornece um exemplo que demonstra como usar o módulo pyspark.ml.connect
para realizar o treinamento distribuído para treinar modelos Spark ML e executar a inferência do modelo em Databricks Connect.
O que é pyspark.ml.connect
?
O Spark 3.5 apresenta o site pyspark.ml.connect
, projetado para oferecer suporte ao modo de conexão do Spark e ao Databricks Connect. Saiba mais sobre o Databricks Connect.
O módulo pyspark.ml.connect
consiste em algoritmos e utilitários de aprendizado comuns, incluindo classificação, transformadores de recurso, pipeline ML e validação cruzada. Esse módulo fornece interfaces semelhantes ao módulopyspark.ml
legado, mas o módulo pyspark.ml.connect
atualmente contém apenas um subconjunto dos algoritmos em pyspark.ml
. Os algoritmos suportados estão listados abaixo:
- Algoritmo de classificação:
pyspark.ml.connect.classification.LogisticRegression
- Transformadores de recurso:
pyspark.ml.connect.feature.MaxAbsScaler
epyspark.ml.connect.feature.StandardScaler
- Avaliador:
pyspark.ml.connect.RegressionEvaluator
,pyspark.ml.connect.BinaryClassificationEvaluator
eMulticlassClassificationEvaluator
- Pipeline:
pyspark.ml.connect.pipeline.Pipeline
- Ajuste do modelo:
pyspark.ml.connect.tuning.CrossValidator
Requisitos
- Configure Databricks Connect em seu clustering. Consulte a configuração de computação para Databricks Connect.
- Databricks Runtime 14.0 ML ou superior instalado.
- modo de acesso de clustering de
Assigned
.
Exemplo de notebook
O seguinte Notebook demonstra como usar o Distributed ML em Databricks Connect:
ML distribuído no Databricks Connect
Para obter informações de referência sobre APIs em pyspark.ml.connect
, Databricks recomenda a referênciaApache Spark API