Usar o XGBoost no Databricks
Este artigo fornece exemplos de treinamento modelo do aprendizado de máquina usando XGBoost em Databricks. Databricks Runtime para Machine Learning inclui XGBoost biblioteca para Python e Scala. O senhor pode treinar modelos XGBoost em uma máquina individual ou de forma distribuída.
Treinar modelos XGBoost em um único nó
O senhor pode treinar modelos usando o pacote Python xgboost
. Esse pacote é compatível apenas com cargas de trabalho de nó único. Para treinar um modelo PySpark ML pipeline e aproveitar as vantagens do treinamento distribuído, consulte Treinamento distribuído de modelos XGBoost.
XGBoost Python Caderno de anotações
Treinamento distribuído dos modelos do site XGBoost
Para o treinamento distribuído dos modelos XGBoost, a Databricks inclui estimadores PySpark baseados no pacote xgboost
. A Databricks também inclui o pacote Scala xgboost-4j
. Para obter detalhes e exemplos de Notebook, consulte o seguinte:
- Treinamento distribuído dos modelos XGBoost usando
xgboost.spark
(Databricks Runtime 12.0 ML e acima) - Treinamento distribuído dos modelos XGBoost usando
sparkdl.xgboost
(obsoleto a partir de Databricks Runtime 12.0 ML) - Treinamento distribuído de modelos XGBoost usando Scala
Instalar o XGBoost no Databricks
Se o senhor precisar instalar o XGBoost no Databricks Runtime ou usar uma versão diferente da pré-instalada com o Databricks Runtime ML, siga estas instruções.
Instalar o XGBoost no Databricks Runtime ML
O XGBoost está incluído no Databricks Runtime ML. O senhor pode usar essas bibliotecas em Databricks Runtime ML sem instalar nenhum pacote.
Para saber a versão do XGBoost instalada na versão Databricks Runtime ML que o senhor está usando, consulte as notas sobre a versão. Para instalar outras versões do Python no Databricks Runtime ML, instale o XGBoost como uma biblioteca PyPI do Databricks. Especifique-o da seguinte forma e substitua <xgboost version>
pela versão desejada.
xgboost==<xgboost version>
Instale o site XGBoost no Databricks Runtime
-
Python pacote : Execute o seguinte comando em uma célula do Notebook:
Python%pip install xgboost
Para instalar uma versão específica, substitua <xgboost version>
pela versão desejada:
%pip install xgboost==<xgboost version>
- Scala/Java pacote : Instale como uma Databricks biblioteca com o nome Spark pacote
xgboost-linux64
.