Pular para o conteúdo principal

recurso engenharia com MLlib

Apache Spark MLlib contém muitas funções utilitárias para executar a engenharia de recurso em escala, incluindo métodos para codificação e transformação de recurso. Esses métodos também podem ser usados para processar recursos para outras bibliotecas que fazem aprendizado de máquina.

Databricks recomenda o seguinte guia Apache Spark MLlib :

Este Notebook baseado em PySpark inclui passos de pré-processamento que convertem dados categóricos em variáveis numéricas usando indexação de categoria e codificação one-hot.

Exemplo de classificação binária

Open notebook in new tab