Databricksで Scikit-Learn を使用する

July 08, 2024

このページでは、 scikit-learn パッケージを使用して Databricks で機械学習モデルをトレーニングする方法の例を示します。 Scikit-Learn は、単一ノード 機械学習で最も人気のある Python ライブラリの 1 つであり、Databricks ランタイムと Databricks Runtime 機械学習に含まれています。クラスターのランタイムに含まれる Scikit-Learn ライブラリのバージョンについては 、 Databricks Runtimeリリースノート を参照してください。

これらのノートブックをインポートして、Databricks ワークスペースで実行できます。

Databricks ですぐに使い始めるためのその他のノートブックの例については、「 チュートリアル: AI と機械学習の概要」を参照してください。

Scikit-Learnを使用した基本的な例

このノートブックでは、Databricks での機械学習モデルのトレーニングの概要を簡単に説明します。 単純な分類モデルをトレーニングするためにscikit-learnパッケージを使用します。 また、モデル開発プロセスを追跡するためのMLflowの使用と、ハイパーフレームワークのチューニングを自動化するためのOptunaの使用についても説明します。

ワークスペースで Unity Catalog が有効になっている場合は、次のバージョンのノートブックを使用します。

Scikit-Learn分類ノートブック ( Unity Catalog )

ノートブックを新しいタブで開く

ワークスペースで Unity Catalog が有効になっていない場合は、次のバージョンのノートブックを使用します。

scikit-learn分類ノートブック

ノートブックを新しいタブで開く

Databricksでの Scikit-Learn を使用したエンドツーエンドの例

このノートブックでは、 Scikit-Learn を使用して、データの読み込み、モデルのトレーニング、分散ハイパーパラメーターチューニング、モデル推論の完全なエンドツーエンドの例を示します。 また、 MLflow Model Registry を使用してモデルをログに記録および登録するモデル ライフサイクル管理についても説明します。

ワークスペースで Unity Catalog が有効になっている場合は、次のバージョンのノートブックを使用します。

Databricks上でのMLflowと統合したScikit-Learnの利用 (Unity Catalog )

ノートブックを新しいタブで開く

ワークスペースで Unity Catalog が有効になっていない場合は、次のバージョンのノートブックを使用します。

Databricks上でのMLflowと統合したScikit-Learnの利用

ノートブックを新しいタブで開く