Engenharia de recursos com MLlib

O Apache Spark MLlib contém muitas funções úteis para executar a engenharia de recursos em escala, incluindo métodos para codificar e transformar recursos. Esses métodos também podem ser usados para processar recursos para outras bibliotecas do machine learning.

Databricks recomenda os seguintes guias Apache Spark MLlib :

Este Notebook baseado em PySpark inclui passos de pré-processamento que convertem dados categóricos em variáveis numéricas usando indexação de categoria e codificação one-hot.

Exemplo de classificação binária

Abra o bloco de anotações em outra guia