Databricks で XGBoost を使用する
この記事では、Databricks で XGBoost を使用して機械学習モデルをトレーニングする例を示します。 Databricks Runtime for Machine Learning には、Python と Scala の両方の XGBoost ライブラリが含まれています。 XGBoost モデルは、個々のマシンで、または分散してトレーニングできます。
XGBoost モデルを 1 つのノードでトレーニングする
Python xgboost
パッケージを使用してモデルをトレーニングできます。 このパッケージは、単一ノードのワークロードのみをサポートします。 PySpark ML パイプラインをトレーニングし、分散トレーニングを利用するには、「 XGBoost モデルの分散トレーニング」を参照してください。
XGBoost Python ノートブック
XGBoost モデルの分散トレーニング
XGBoost モデルの分散トレーニングのために、Databricks には xgboost
パッケージに基づく PySpark 推定器が含まれています。 Databricks には、Scala パッケージ xgboost-4j
も含まれています。 ノートブックの詳細と例については、以下を参照してください。
xgboost.spark
を使用した XGBoost モデルの分散トレーニング (Databricks Runtime 12.0 ML 以降)sparkdl.xgboost
を使用した XGBoost モデルの分散トレーニング (Databricks Runtime 12.0 ML 以降で非推奨)- Scalaを使用したXGBoostモデルの分散トレーニング
XGBoost を Databricks にインストールする
Databricks Runtime に XGBoost をインストールする必要がある場合、または Databricks Runtime ML にプレインストールされているバージョンとは異なるバージョンを使用する必要がある場合は、次の手順に従います。
XGBoost を Databricks Runtime ML にインストールする
XGBoost は Databricks Runtime ML に含まれています。 これらのライブラリは、パッケージをインストールしなくても Databricks Runtime ML で使用できます。
お使いの XGBoostバージョンにインストールされているDatabricks RuntimeML のバージョンについては、 リリースノート を参照してください。Databricks Runtime ML に他の Python バージョンをインストールするには、XGBoost を Databricks PyPI ライブラリとしてインストールします。 次のように指定し、 <xgboost version>
を目的のバージョンに置き換えます。
xgboost==<xgboost version>
Databricks Runtime に XGBoost をインストールする
-
Python パッケージ : ノートブックのセルで次のコマンドを実行します。
Python%pip install xgboost
特定のバージョンをインストールするには、 <xgboost version>
を目的のバージョンに置き換えます。
%pip install xgboost==<xgboost version>
- Scala/Java パッケージ : Spark パッケージ名が
xgboost-linux64
の Databricks ライブラリとしてインストールします。