Databricksで Scikit-Learn を使用する
July 08, 2024
このページでは、 scikit-learn
パッケージを使用して Databricks で機械学習モデルをトレーニングする方法の例を示します。 Scikit-Learn は、単一ノード 機械学習で最も人気のある Python ライブラリの 1 つであり、Databricks ランタイムと Databricks Runtime 機械学習に含まれています。クラスターのランタイムに含まれる Scikit-Learn ライブラリのバージョンについては 、 Databricks Runtimeリリースノート を参照してください。
これらのノートブックをインポートして、Databricks ワークスペースで実行できます。
Databricks ですぐに使い始めるためのその他のノートブックの例については、「 チュートリアル: AI と機械学習の概要」を参照してください。
Scikit-Learnを使用した基本的な例
このノートブックでは、Databricks での機械学習モデルのトレーニングの概要を簡単に説明します。 単純な分類モデルをトレーニングするためにscikit-learn
パッケージを使用します。 また、モデル開発プロセスを追跡するためのMLflowの使用と、ハイパーフレームワークのチューニングを自動化するためのOptunaの使用についても説明します。
ワークスペースで Unity Catalog が有効になっている場合は、次のバージョンのノートブックを使用します。
ワークスペースで Unity Catalog が有効になっていない場合は、次のバージョンのノートブックを使用します。
Databricksでの Scikit-Learn を使用したエンドツーエンドの例
このノートブックでは、 Scikit-Learn を使用して、データの読み込み、モデルのトレーニング、分散ハイパーパラメーターチューニング、モデル推論の完全なエンドツーエンドの例を示します。 また、 MLflow Model Registry を使用してモデルをログに記録および登録するモデル ライフサイクル管理についても説明します。
ワークスペースで Unity Catalog が有効になっている場合は、次のバージョンのノートブックを使用します。
ワークスペースで Unity Catalog が有効になっていない場合は、次のバージョンのノートブックを使用します。