モデルトレーニングの例
このセクションには、多くの一般的なオープンソース ライブラリを使用して Databricks で機械学習モデルをトレーニングする方法を示す例が含まれています。
AutoMLを使用することもできます。AutoMLは、モデル学習用のデータセットを自動的に準備し、Scikit-LearnやXGBoostといったオープンソースライブラリを使用して一連のトライアルを実行し、各トライアル実行のソースコードを含むPythonノートブックを作成するものです。ユーザーはこのコードを精査したり、再現したり、変更したりすることができます。
機械学習の例
パッケージ |
ノートブック |
特徴量 |
---|---|---|
Scikit-Learn |
Unity Catalog 、分類モデル、 MLflow 、 HyperoptとMLflowによるハイパーパラメータの自動調整 |
|
Scikit-Learn |
Unity Catalog 、分類モデル、 MLflow 、 HyperoptとMLflowによるハイパーパラメータの自動調整、 XGBoost |
|
MLlib |
二項分類、決定木、GBT回帰、構造化ストリーミング、カスタムトランスフォーマー |
|
XGBoost |
Python、PySpark、Scala、シングルノードワークロード、分散トレーニング |
ハイパーパラメータチューニングの例
Databricksでのハイパーパラメータチューニングに関する一般的な情報については、「ハイパーパラメータの調整」を参照してください。
パッケージ |
ノートブック |
特徴量 |
---|---|---|
Hyperopt |
分散hyperopt、Scikit-Learn、MLflow |
|
Hyperopt |
分散hyperoptを使用して、ハイパーパラメータ空間でさまざまなモデルタイプを同時に検索する |
|
Hyperopt |
Hyperopt、MLlib |
|
Hyperopt |
さまざまなサイズのデータセットのベストプラクティス |