Databricks で XGBoost を使用する
この記事では、Databricks で XGBoost を使用して機械学習モデルをトレーニングする例を示します。 Databricks Runtime for Machine Learning には、Python と Scala の両方の XGBoost ライブラリが含まれています。 XGBoost モデルは、個々のマシンで、または分散してトレーニングできます。
XGBoost モデルを 1 つのノードでトレーニングする
Python xgboost
パッケージを使用してモデルをトレーニングできます。 このパッケージは、単一ノードのワークロードのみをサポートします。 PySpark ML パイプラインをトレーニングし、分散トレーニングを利用するには、「 XGBoost モデルの分散トレーニング」を参照してください。
XGBoost Python ノートブック
XGBoost モデルの分散トレーニング
XGBoost モデルの分散トレーニングのために、Databricks には xgboost
パッケージに基づく PySpark 推定器が含まれています。Databricks Runtime 16.4 LTS ML 以下では、Databricks には Scala パッケージ xgboost-4j
も含まれています。ノートブックの詳細と例については、以下を参照してください。
xgboost.spark
を使用した XGBoost モデルの分散トレーニング (Databricks Runtime 12.0 ML 以降)sparkdl.xgboost
を使用した XGBoost モデルの分散トレーニング (Databricks Runtime 12.0 ML 以降で非推奨)- Scalaを使用したXGBoostモデルの分散トレーニング
XGBoost を Databricks にインストールする
Databricks Runtime に XGBoost をインストールする必要がある場合、または Databricks Runtime ML にプレインストールされているバージョンとは異なるバージョンを使用する必要がある場合は、次の手順に従います。
XGBoost を Databricks Runtime ML にインストールする
XGBoost は Databricks Runtime ML に含まれています。 これらのライブラリは、パッケージをインストールしなくても Databricks Runtime ML で使用できます。
お使いの XGBoostバージョンにインストールされているDatabricks RuntimeML のバージョンについては、 リリースノート を参照してください。Databricks Runtime ML に他の Python バージョンをインストールするには、XGBoost を Databricks PyPI ライブラリとしてインストールします。 次のように指定し、 <xgboost version>
を目的のバージョンに置き換えます。
xgboost==<xgboost version>
Databricks Runtime に XGBoost をインストールする
-
Python パッケージ : ノートブックのセルで次のコマンドを実行します。
Python%pip install xgboost
特定のバージョンをインストールするには、 <xgboost version>
を目的のバージョンに置き換えます。
%pip install xgboost==<xgboost version>
- Scala/Java パッケージ : Spark パッケージ名が
xgboost-linux64
の Databricks ライブラリとしてインストールします。