Engenharia de recursos com MLlib
O Apache Spark MLlib contém muitas funções úteis para executar a engenharia de recursos em escala, incluindo métodos para codificar e transformar recursos. Esses métodos também podem ser usados para processar recursos para outras bibliotecas do machine learning.
Databricks recomenda os seguintes guias Apache Spark MLlib :
Este Notebook baseado em PySpark inclui passos de pré-processamento que convertem dados categóricos em variáveis numéricas usando indexação de categoria e codificação one-hot.