モデルトレーニングの例

このセクションには、多くの一般的なオープンソース ライブラリを使用して Databricks で機械学習モデルをトレーニングする方法を示す例が含まれています。

AutoMLを使用することもできます。AutoMLは、モデル学習用のデータセットを自動的に準備し、Scikit-LearnやXGBoostといったオープンソースライブラリを使用して一連のトライアルを実行し、各トライアル実行のソースコードを含むPythonノートブックを作成するものです。ユーザーはこのコードを精査したり、再現したり、変更したりすることができます。

サンプルノートブックには、Unity Catalogのデータを使用する機械学習モデルをトレーニングし、予測をUnity Catalogに書き戻す方法が示されています。「Unity Catalogを使用した機械学習モデルのトレーニングと登録」を参照してください。

機械学習の例

パッケージ

ノートブック

特徴量

Scikit-Learn

機械学習のチュートリアル

分類モデル、MLflow、HyperoptとMLflowによる自動ハイパーパラメータチューニング

Scikit-Learn

全体例

分類モデル、MLflow、HyperoptとMLflowによる自動ハイパーパラメータチューニング、XGBoost、Model Registry、モデルサービング

MLlib

MLLibの例

二項分類、決定木、GBT回帰、構造化ストリーミング、カスタムトランスフォーマー

XGBoost

XGBoostの例

Python、PySpark、Scala、シングルノードワークロード、分散トレーニング

ハイパーパラメータチューニングの例

Databricksでのハイパーパラメータチューニングに関する一般的な情報については、「ハイパーパラメータの調整」を参照してください。

パッケージ

ノートブック

特徴量

Hyperopt

分散hyperopt

分散hyperopt、Scikit-Learn、MLflow

Hyperopt

モデルの比較

分散hyperoptを使用して、ハイパーパラメータ空間でさまざまなモデルタイプを同時に検索する

Hyperopt

分散トレーニングのアルゴリズムとhyperopt

Hyperopt、MLlib

Hyperopt

Hyperoptのベストプラクティス

さまざまなサイズのデータセットのベストプラクティス