recurso engenharia com MLlib
Apache Spark MLlib contém muitas funções utilitárias para executar a engenharia de recurso em escala, incluindo métodos para codificação e transformação de recurso. Esses métodos também podem ser usados para processar recursos para outras bibliotecas que fazem aprendizado de máquina.
Databricks recomenda o seguinte guia Apache Spark MLlib :
- Extração, transformação e seleção de recurso com MLlib
- MLlib Guia de programação
- Referência da API do Python
- Referência da API do Scala
Este Notebook baseado em PySpark inclui passos de pré-processamento que convertem dados categóricos em variáveis numéricas usando indexação de categoria e codificação one-hot.