Databricks UI を使用してモニターを作成する
この記事では、Databricks UI を使用してデータ モニターを作成する方法について説明します。 API を使用することもできます。
Databricks UI にアクセスするには、次の操作を行います。
- ワークスペースの左側のサイドバーで、[
]をクリックして カタログエクスプローラーを開きます。
- 監視するテーブルに移動します。
- 「品質 」タブをクリックします。
- [ 開始する ] ボタンをクリックします。
- [ モニターの作成 ] で、モニターを設定するオプションを選択します。
プロファイリング
[プロファイルの種類 ] メニューから、作成するモニターの種類を選択します。プロファイルのタイプを表に示します。
プロファイルのタイプ | 説明 |
---|---|
時系列プロファイル | 経時的に測定された値を含むテーブル。 このテーブルには、タイムスタンプ列が含まれています。 |
推論プロファイル | 機械学習の分類モデルまたは回帰モデルによって出力された予測値を含むテーブル。 このテーブルには、タイムスタンプ、モデル ID、モデル入力 (特徴)、モデル予測を含む列、および一意の観測 ID とグラウンド トゥルース ラベルを含むオプションの列が含まれます。 また、モデルへの入力としては使用されないが、公平性やバイアスの調査、その他のモニタリングに役立つ可能性のあるメタデータ (人口統計情報など) を含めることもできます。 |
スナップショットプロファイル | 任意の Delta マネージドテーブル、外部テーブル、view、materialized view、またはストリーミングテーブル。 |
「 TimeSeries
」または「 Inference
」を選択した場合は、追加のパラメーターが必要であり、次のセクションで説明します。
- 時系列プロファイルまたは推論プロファイルを初めて作成すると、モニターは作成前の 30 日間のデータのみを分析します。 モニターが作成されると、すべての新しいデータが処理されます。
- マテリアライズド・ビューとストリーミング・テーブルで定義されたモニタは、インクリメンタル処理をサポートしていません。
TimeSeries
プロファイルと Inference
プロファイルの場合は、テーブルでチェンジデータフィード (CDF) を有効にすることをおすすめします。CDF を有効にすると、更新のたびにテーブル全体を再処理するのではなく、新しく追加されたデータのみが処理されます。 これにより、実行がより効率的になり、多くのテーブル間でモニタリングをスケーリングする際のコストが削減されます。
TimeSeries
プロファイル
TimeSeries
プロファイルでは、次の選択を行う必要があります。
- ウィンドウ内のデータを時間にわたって分割する方法を決定する メトリクスの粒度 を指定します。
- タイムスタンプ列 (タイムスタンプを含むテーブル内の列) を指定します。タイムスタンプ列のデータ型は、
TIMESTAMP
であるか、to_timestamp
PySpark 関数を使用してタイムスタンプに変換できる型である必要があります。
Inference
プロファイル
Inference
プロファイルの場合、粒度とタイムスタンプに加えて、次の選択を行う必要があります。
- 問題のタイプ (分類または回帰)を選択してください。
- モデルの予測値を含む列である Prediction 列 を指定します。
- オプションで、 モデル予測の根拠となる真理値を含むラベル列を指定します 。
- モデルID列 、つまり予測に使用されるモデルのIDを含む列を指定します。
計画
モニターをスケジュールに基づいて実行するように設定するには、[ スケジュールに従って更新] を選択し、モニターを実行する頻度と時間を選択します。 モニターを自動的に実行しない場合は、[ 手動で更新 ] を選択します。 手動で更新 を選択した場合は、後で [品質 ] タブからメトリクスを更新できます。
通知
モニターのEメール通知を設定するには、通知するEメールを入力し、有効にする通知を選択します。 通知イベントタイプごとに最大 5 つの Eメール がサポートされます。
全般
[全般 ] セクションでは、1 つの必須設定といくつかの追加構成オプションを指定する必要があります。
- モニターによって作成されたメトリクステーブルが格納される Unity Catalog スキーマを指定する必要があります。 場所は {catalog} の形式にする必要があります。{schema}です。
また、次の設定を指定することもできます。
-
Assets ディレクトリ 。 生成されたダッシュボードなどのモニタリングアセットを保存する既存のディレクトリへの絶対パスを入力します。 デフォルトでは、アセットはデフォルトのディレクトリ「/Users/{user_name}/モニタリング/{table_name}」に保存されます。 このフィールドに別の場所を入力すると、指定したディレクトリの「/{table_name}」の下にアセットが作成されます。 このディレクトリは、ワークスペース内の任意の場所に配置できます。 組織内で共有することを目的としたモニターの場合は、"/Shared/" ディレクトリ内のパスを使用できます。
このフィールドを空白のままにすることはできません。
-
Unity Catalog ベースライン テーブル名 。 比較用のベースライン データを含むテーブルまたはビューの名前。 ベースライン・テーブルについて詳しくは、 プライマリ入力テーブルとベースライン・テーブルを参照してください。
-
メトリクス slicing expressions . スライス式を使用すると、テーブル全体に加えて、監視するテーブルのサブセットを定義できます。 スライス式を作成するには、[ 式の追加 ] をクリックし、式の定義を入力します。 たとえば、式
"col_2 > 10"
は 2 つのスライス (1 つはcol_2 > 10
用、もう 1 つはcol_2 <= 10
用) を生成します。 別の例として、式"col_1"
はcol_1
の一意の値ごとに 1 つのスライスを生成します。 データは各式ごとに個別にグループ化されるため、述語とその補数ごとに個別のスライスが作成されます。 -
カスタムメトリクス 。 カスタム メトリクスは、組み込み メトリクスと同様にメトリクス テーブルに表示されます。 詳細については、「Databricks レイクハウスモニタリングでカスタムメトリクスを使用する」を参照してください。カスタムメトリクスを設定するには、[ カスタムメトリクスを追加 ] をクリックします。
- カスタムメトリクス の [名前 ] を入力します。
- カスタムメトリクス Type (
Aggregate
、Derived
、Drift
のいずれかを選択します。定義については、「 カスタムメトリクスのタイプ」を参照してください。 - ( 入力列 )のドロップダウンリストから、メトリクスを適用する列を選択します。
- ( 出力タイプ )フィールドで、メトリクスのSparkデータタイプを選択します。
- 「定義 」フィールドにSQLカスタムメトリクスを定義するコードを入力します。
UIでのモニター設定の編集
モニターを作成した後、[ 品質 ] タブの [ モニター構成の編集 ] ボタンをクリックして、モニターの設定を変更できます。
UIでモニターの結果を更新して表示する
モニターを手動で実行するには、[ メトリクスの更新] をクリックします。
モニター・メトリクス・テーブルに保管される統計に関する情報については、 モニター・メトリクス・テーブルを参照してください。 メトリクス テーブルは Unity Catalog テーブルです。 ノートブックまたは SQL クエリ エクスプローラーでクエリを実行し、カタログ エクスプローラーで表示できます。
モニター出力へのアクセスを制御する
モニターによって作成されたメトリクステーブルとダッシュボードは、モニターを作成したユーザーが所有しています。 Unity Catalog権限を使用して、メトリクステーブルへのアクセスを制御できます。ワークスペース内でダッシュボードを共有するには、ダッシュボードの右上にある [共有 ] ボタンをクリックします。
UI からモニターを削除する
UI からモニターを削除するには、[ メトリクスを更新 ] ボタンの横にあるケバブメニューをクリックし、[ モニターの削除 ] を選択します。