Databricks UIを使用したモニターの作成

この記事では、Databricks UI を使用してデータ モニターを作成する方法について説明します。 API を使用することもできます。

Databricks UI にアクセスするには、次の手順を実行します。

  1. ワークスペースの左側のサイドバーで、 をクリックしてカタログ アイコン「カタログエクスプローラ」(Catalog Explorer) を開きます。

  2. 監視するテーブルに移動します。

  3. [ 品質 ] タブをクリックします。

  4. [ 開始する] ボタンをクリックします。

  5. [ モニターの作成] で、モニターを設定するオプションを選択します。

プロファイリング

[プロファイルの種類] メニューから、作成するモニターの種類を選択します。プロファイルの種類を表に示します。

プロファイルのタイプ

説明

時系列プロファイル

経時的に測定された値を含むテーブル。 このテーブルには、タイムスタンプ列が含まれています。

推論プロファイル

機械学習の分類モデルまたは回帰モデルによって出力された予測値を含むテーブル。 このテーブルには、タイムスタンプ、モデル ID、モデル入力 (特徴)、モデル予測を含む列、および一意の観測 ID とグラウンド トゥルース ラベルを含むオプションの列が含まれます。 また、モデルへの入力として使用されないが、公平性とバイアスの調査やその他のモニタリングに役立つ可能性のあるメタデータ (人口統計情報など) を含めることもできます。

スナップショットプロファイル

Delta管理のテーブル、外部テーブル、ビュー、マテリアライズド ビュー、またはストリーミング テーブル。

[ TimeSeries ] または [ Inference] を選択した場合は、次のセクションで説明する追加のパラメーターが必要です。

注:

  • 時系列または推論プロファイルを最初に作成すると、モニターは作成前の 30 日間のデータのみを分析します。 モニターが作成されると、すべての新しいデータが処理されます。

  • マテリアライズド ビューおよびストリーミング テーブルで定義されたモニターは、増分処理をサポートしません。

ヒント

TimeSeries プロファイルと Inference プロファイルの場合は、テーブルでチェンジデータフィード (CDF) を有効にすることをおすすめします。CDF を有効にすると、更新のたびにテーブル全体を再処理するのではなく、新しく追加されたデータのみが処理されます。 これにより、実行がより効率的になり、多くのテーブル間でモニタリングをスケーリングする際のコストが削減されます。

TimeSeries プロフィール

TimeSeries プロファイルの場合は、次の選択を行う必要があります。

  • 時間の経過と共にウィンドウ内のデータをパーティション分割する方法を決定する メトリクス粒度 を指定します。

  • タイムスタンプを含むテーブル内の列である タイムスタンプ列を指定します。 タイムスタンプ列のデータ型は、 TIMESTAMP であるか、 to_timestamp PySpark 関数を使用してタイムスタンプに変換できる型である必要があります。

Inference プロフィール

Inference プロファイルの場合は、粒度とタイムスタンプに加えて、次の選択を行う必要があります。

  • [問題の種類] (分類または回帰) を選択します。

  • モデルの予測値を含む列である 予測列を指定します。

  • 必要に応じて、モデル予測のグラウンドトゥルースを含む列である [ラベル] 列を指定します。

  • モデル ID 列 (予測に使用されるモデルの ID を含む列) を指定します。

スケジュール

スケジュールに基づいて実行するようにモニターを設定するには、[ スケジュールに従って更新 ] を選択し、モニターを実行する頻度と時間を選択します。 モニターを自動的に実行しない場合は、[ 手動で更新] を選択します。 [手動で更新] を選択した場合は、後で [品質] タブからメトリクスを更新できます。

通知

モニターの電子メール通知を設定するには、通知を受ける電子メールを入力し、有効にする通知を選択します。 通知イベント タイプごとに最大 5 つの電子メールがサポートされます。

全般

[ 全般 ] セクションでは、1 つの必須設定といくつかの追加の構成オプションを指定する必要があります。

  • モニターによって作成されたメトリクステーブルが格納される Unity Catalog スキーマを指定する必要があります。 場所は {カタログ} の形式である必要があります。{スキーマ}.

また、次の設定を指定することもできます。

  • Assets ディレクトリにあります。 生成されたダッシュボードなどのモニタリング資産を保存する既存のディレクトリへの絶対パスを入力します。 デフォルトでは、アセットはデフォルトのディレクトリ「/Users/{user_name}/監視/{table_name}」)に保存されます。 このフィールドに別の場所を入力すると、指定したディレクトリの「/{table_name}」の下にアセットが作成されます。 このディレクトリはワークスペース内のどこにでも置くことができます。 組織内で共有することを目的としたモニターの場合は、「/Shared/」ディレクトリ内のパスを使用できます。

    このフィールドを空白のままにすることはできません。

  • Unity Catalog ベースライン テーブル名。 比較するベースライン データを含むテーブルまたはビューの名前。 ベースライン テーブルの詳細については、「 プライマリ入力テーブルとベースライン テーブル」を参照してください。

  • メトリクス スライス式。 スライス式を使用すると、テーブル全体に加えて、監視するテーブルのサブセットを定義できます。 スライス式を作成するには、[ 式の追加 ] をクリックし、式の定義を入力します。 たとえば、式 "col_2 > 10" は、 col_2 > 10 用と col_2 <= 10用の 2 つのスライスを生成します。 別の例として、式 "col_1" は、 col_1の一意の値ごとに 1 つのスライスを生成します。 データは各式によって個別にグループ化され、述語とその補数ごとに個別のスライスが作成されます。

  • カスタムメトリクス。 カスタムメトリクスは、組み込みメトリクスと同様にメトリクステーブルに表示されます。 詳細については、「 Databricks レイクハウス モニタリングでカスタム メトリクスを使用する」を参照してください。 カスタムメトリクスを設定するには、「 カスタムメトリクスを追加」をクリックします。 - カスタムメトリクスの [名前 ] を入力します。 - カスタムメトリクス タイプ( AggregateDerivedDriftのいずれかを選択します。 定義については、「 カスタムメトリクスのタイプ」を参照してください。 - [Input columns] (入力カラム)のドロップダウンリストから、メトリクスを適用するカラムを選択します。 - [ Output type ] (出力タイプ)フィールドで、メトリクスのSparkデータタイプを選択します。 - [ Definition ] (定義)フィールドに、カスタムメトリクスを定義するSQLコードを入力します。

UIでのモニター設定の編集

モニターを作成した後、[品質] タブの [モニター 構成の編集] ボタンをクリックして、モニターの設定を変更できます。

UIでモニターの結果を更新して表示する

モニターを手動で実行するには、「 メトリクスの更新」をクリックします。

monitor メトリクステーブルに格納される統計に関する情報については、 Monitor メトリクステーブルを参照してください。 メトリクス テーブルは Unity Catalog テーブルです。 ノートブックまたは SQL クエリー エクスプローラーでクエリを実行し、カタログ エクスプローラーで表示できます。

モニター出力へのアクセスを制御する

モニターによって作成されたメトリクステーブルとダッシュボードは、モニターを作成したユーザーが所有します。 Unity Catalog 権限を使用して、メトリクステーブルへのアクセスを制御できます。ワークスペース内でダッシュボードを共有するには、ダッシュボードの右上にある [ 共有 ] ボタンをクリックします。

UIからモニターを削除する

UI からモニターを削除するには、[ メトリクスの更新 ] ボタンの横にあるケバブ メニューをクリックし、[ モニターの削除] を選択します。