Pular para o conteúdo principal

Treine modelos Spark ML no Databricks Connect com pyspark.ml.connect

info

Visualização

Esse recurso está em Public Preview.

Este artigo fornece um exemplo que demonstra como usar o módulo pyspark.ml.connect para realizar o treinamento distribuído para treinar modelos Spark ML e executar a inferência do modelo em Databricks Connect.

O que é pyspark.ml.connect?

O Spark 3.5 apresenta o site pyspark.ml.connect, projetado para oferecer suporte ao modo de conexão do Spark e ao Databricks Connect. Saiba mais sobre o Databricks Connect.

O módulo pyspark.ml.connect consiste em algoritmos e utilitários de aprendizado comuns, incluindo classificação, transformadores de recurso, pipeline ML e validação cruzada. Esse módulo fornece interfaces semelhantes ao módulopyspark.ml legado, mas o módulo pyspark.ml.connect atualmente contém apenas um subconjunto dos algoritmos em pyspark.ml. Os algoritmos suportados estão listados abaixo:

  • Algoritmo de classificação: pyspark.ml.connect.classification.LogisticRegression
  • Transformadores de recurso: pyspark.ml.connect.feature.MaxAbsScaler e pyspark.ml.connect.feature.StandardScaler
  • Avaliador: pyspark.ml.connect.RegressionEvaluator, pyspark.ml.connect.BinaryClassificationEvaluator e MulticlassClassificationEvaluator
  • Pipeline: pyspark.ml.connect.pipeline.Pipeline
  • Ajuste do modelo: pyspark.ml.connect.tuning.CrossValidator

Requisitos

Exemplo de notebook

O seguinte Notebook demonstra como usar o Distributed ML em Databricks Connect:

ML distribuído no Databricks Connect

Open notebook in new tab

Para obter informações de referência sobre APIs em pyspark.ml.connect, Databricks recomenda a referênciaApache Spark API