メインコンテンツまでスキップ

AutoMLとは?

AutoML は、最適なアルゴリズムとハイパーパラメータ設定を自動的に見つけることで、データセットに機械学習を適用するプロセスを簡素化します。

AutoML はどのように機能しますか?

データセットを指定し、機械学習の問題の種類を指定すると、AutoML によって次の処理が行われます。

  1. データをクリーニングして準備します。
  2. 分散モデル トレーニングとハイパーパラメーターチューニングを複数のアルゴリズム間で調整します。
  3. scikit-learn、xgboost、LightGBM、Prophet、ARIMAのオープンソース評価アルゴリズムを使用して、最適なモデルを見つけます。
  4. 結果を表示します。 また、AutoML ではトライアルごとに ソースコードノートブックが生成され るため、必要に応じてコードを確認、再現、変更できます。

エクスペリメントの AutoML は、 回帰のためのローコードUIで開始します。 分類;または 予測、または Python API

必要条件

  • Databricks では、AutoML の一般提供のために Databricks Runtime 10.4 LTS ML 以降をお勧めします。

  • AutoML は、AutoML の外部で役立つコンポーネントを含み、AutoML トレーニングによって生成されたノートブックを簡略化するのにも役立つ databricks-automl-runtime パッケージに依存しています。 databricks-automl-runtimePyPI で入手できます。

  • Databricks Runtime for Machine Learning にプレインストールされているライブラリ以外の追加のライブラリをクラスターにインストールしないでください。

    • 既存のライブラリのバージョンに変更を加えると(削除、アップグレード、ダウングレード)、互換性がないため、実行に失敗します。
  • ワークスペース内のファイルにアクセスするには、 AutoML エクスペリメント用にネットワークポート 1017 と 1021 が開いている必要があります。 これらのポートを開くか、開いていることを確認するには、クラウド VPN ファイアウォールの構成とセキュリティ グループ ルールを確認するか、ローカルのクラウド管理者に問い合わせてください。 ワークスペースの構成とデプロイの詳細については、「 ワークスペースの作成」を参照してください。

  • サポートされている コンピュート アクセス モードのコンピュート リソースを使用します。 すべてのコンピュートアクセスモードが Unity Catalogにアクセスできるわけではありません。

コンピュート アクセス モード

AutoML のサポート

Unity Catalogのサポート

専用 (以前のシングルユーザー)

1 人のユーザー専用の場合にサポートされます。 グループに割り当てられている場合はサポートされません。

サポート

スタンダード (旧共有)

サポートされていません

サポート

分離なし共有

サポート

サポートされていません

AutoML アルゴリズム

AutoML は、次の表のアルゴリズムに基づいてモデルをトレーニングおよび評価します。

注記

分類モデルと回帰モデルの場合、決定木、ランダム フォレスト、ロジスティック回帰、および確率的勾配降下アルゴリズムによる線形回帰は、 scikit-learnに基づいています。

|分類モデル |回帰モデル |予測モデル | |——————— |—————– |—————— |決定木 |決定木 |Prophet| |ランダムフォレスト |ランダムフォレスト|Auto-ARIMA (Databricks Runtime 10.3 ML 以降で利用可能)||ロジスティック回帰 |確率的勾配降下法による線形回帰 | | |XGBoost |XGBoost | | |LightGBM|LightGBM| |

トライアルノートブックの生成

クラシック コンピュート AutoML は、試用版の背後にあるソース コードのノートブックを生成するため、必要に応じてコードを確認、再現、変更できます。

エクスペリメントを予測する場合、AutoML で生成されたノートブックは、エクスペリメントのすべての試用版のワークスペースに自動的にインポートされます。

分類と回帰のエクスペリメントの場合、データ探索用に AutoML で生成されたノートブックと、エクスペリメントの最適な試用版がワークスペースに自動的にインポートされます。 他のエクスペリメント試用版用に生成されたノートブックは MLflow ワークスペースに自動的にインポートされるのではなく、 DBFS にアーティファクトとして保存されます。 最適な試用版を除くすべての試用版では、TrialInfo Python API のnotebook_pathnotebook_urlは設定されません。これらのノートブックを使用する必要がある場合は、AutoMLエクスペリメントUIまたはdatabricks.automl.import_notebook Python APIを使用して、手動でワークスペースにインポートできます。

AutoMLによって生成されたデータ探索ノートブックやベストトライアルのノートブックのみを使用する場合、AutoMLエクスペリメントUIの ソース 列には、ベストトライアル用に生成されたノートブックへのリンクが含まれます。

AutoML エクスペリメント UI で生成された他のノートブックを使用する場合、これらはワークスペースに自動的にインポートされません。ノートブックは、各 MLflow 実行をクリックすると見つけることができます。 IPython ノートブックは、実行ページの [アーティファクト ] セクションに保存されます。 このノートブックをダウンロードしてワークスペースにインポートできます (ワークスペースの管理者によってアーティファクトのダウンロードが有効になっている場合)。

モデルの説明可能性のためのShapley値(SHAP)

注記

MLR 11.1 以下では、データセットに datetime 列が含まれている場合、SHAP プロットは生成されません。

AutoMLの回帰と分類の実行によって作成されたノートブックには、Shapley値を計算するコードが含まれています。Shapley値はゲーム理論に基づいており、モデルの予測に対する各特徴量の重要性を推定します。

AutoML ノートブックは、 SHAP パッケージを使用して Shapley 値を計算します。 これらの計算はメモリを大量に消費するため、デフォルトでは計算は実行されません。

Shapley値を計算して表示するには、以下を実行します。

  1. AutoML で生成された試用版ノートブックの [特徴の重要度 ] セクションに移動します。
  2. shap_enabled = Trueと設定します。
  3. ノートブックを再実行します。

次のステップ