Databricks UIを使用したモニターの作成
この記事では、Databricks UI を使用してデータ モニターを作成する方法について説明します。 API を使用することもできます。
Databricks UI にアクセスするには、次の手順を実行します。
ワークスペースの左側のサイドバーで、 をクリックして「カタログエクスプローラ」(Catalog Explorer) を開きます。
監視するテーブルに移動します。
[ 品質 ] タブをクリックします。
[ 開始する] ボタンをクリックします。
[ モニターの作成] で、モニターを設定するオプションを選択します。
プロファイリング
[プロファイルの種類] メニューから、作成するモニターの種類を選択します。プロファイルの種類を表に示します。
プロファイルのタイプ |
説明 |
---|---|
時系列プロファイル |
経時的に測定された値を含むテーブル。 このテーブルには、タイムスタンプ列が含まれています。 |
推論プロファイル |
機械学習の分類モデルまたは回帰モデルによって出力された予測値を含むテーブル。 このテーブルには、タイムスタンプ、モデル ID、モデル入力 (特徴)、モデル予測を含む列、および一意の観測 ID とグラウンド トゥルース ラベルを含むオプションの列が含まれます。 また、モデルへの入力として使用されないが、公平性とバイアスの調査やその他のモニタリングに役立つ可能性のあるメタデータ (人口統計情報など) を含めることもできます。 |
スナップショットプロファイル |
Delta管理のテーブル、外部テーブル、ビュー、マテリアライズド ビュー、またはストリーミング テーブル。 |
[ TimeSeries
] または [ Inference
] を選択した場合は、次のセクションで説明する追加のパラメーターが必要です。
注:
時系列または推論プロファイルを最初に作成すると、モニターは作成前の 30 日間のデータのみを分析します。 モニターが作成されると、すべての新しいデータが処理されます。
マテリアライズド ビューおよびストリーミング テーブルで定義されたモニターは、増分処理をサポートしません。
ヒント
TimeSeries
プロファイルと Inference
プロファイルの場合は、テーブルでチェンジデータフィード (CDF) を有効にすることをおすすめします。CDF を有効にすると、更新のたびにテーブル全体を再処理するのではなく、新しく追加されたデータのみが処理されます。 これにより、実行がより効率的になり、多くのテーブル間でモニタリングをスケーリングする際のコストが削減されます。
TimeSeries
プロフィール
TimeSeries
プロファイルの場合は、次の選択を行う必要があります。
時間の経過と共にウィンドウ内のデータをパーティション分割する方法を決定する メトリクス粒度 を指定します。
タイムスタンプを含むテーブル内の列である タイムスタンプ列を指定します。 タイムスタンプ列のデータ型は、
TIMESTAMP
であるか、to_timestamp
PySpark 関数を使用してタイムスタンプに変換できる型である必要があります。
スケジュール
スケジュールに基づいて実行するようにモニターを設定するには、[ スケジュールに従って更新 ] を選択し、モニターを実行する頻度と時間を選択します。 モニターを自動的に実行しない場合は、[ 手動で更新] を選択します。 [手動で更新] を選択した場合は、後で [品質] タブからメトリクスを更新できます。
全般
[ 全般 ] セクションでは、1 つの必須設定といくつかの追加の構成オプションを指定する必要があります。
モニターによって作成されたメトリクステーブルが格納される Unity Catalog スキーマを指定する必要があります。 場所は {カタログ} の形式である必要があります。{スキーマ}.
また、次の設定を指定することもできます。
Assets ディレクトリにあります。 生成されたダッシュボードなどのモニタリング資産を保存する既存のディレクトリへの絶対パスを入力します。 デフォルトでは、アセットはデフォルトのディレクトリ「/Users/{user_name}/監視/{table_name}」)に保存されます。 このフィールドに別の場所を入力すると、指定したディレクトリの「/{table_name}」の下にアセットが作成されます。 このディレクトリはワークスペース内のどこにでも置くことができます。 組織内で共有することを目的としたモニターの場合は、「/Shared/」ディレクトリ内のパスを使用できます。
このフィールドを空白のままにすることはできません。
Unity Catalog ベースライン テーブル名。 比較するベースライン データを含むテーブルまたはビューの名前。 ベースライン テーブルの詳細については、「 プライマリ入力テーブルとベースライン テーブル」を参照してください。
メトリクス スライス式。 スライス式を使用すると、テーブル全体に加えて、監視するテーブルのサブセットを定義できます。 スライス式を作成するには、[ 式の追加 ] をクリックし、式の定義を入力します。 たとえば、式
"col_2 > 10"
は、col_2 > 10
用とcol_2 <= 10
用の 2 つのスライスを生成します。 別の例として、式"col_1"
は、col_1
の一意の値ごとに 1 つのスライスを生成します。 データは各式によって個別にグループ化され、述語とその補数ごとに個別のスライスが作成されます。カスタムメトリクス。 カスタムメトリクスは、組み込みメトリクスと同様にメトリクステーブルに表示されます。 詳細については、「 Databricks レイクハウス モニタリングでカスタム メトリクスを使用する」を参照してください。 カスタムメトリクスを設定するには、「 カスタムメトリクスを追加」をクリックします。 - カスタムメトリクスの [名前 ] を入力します。 - カスタムメトリクス タイプ(
Aggregate
、Derived
、Drift
のいずれかを選択します。 定義については、「 カスタムメトリクスのタイプ」を参照してください。 - [Input columns] (入力カラム)のドロップダウンリストから、メトリクスを適用するカラムを選択します。 - [ Output type ] (出力タイプ)フィールドで、メトリクスのSparkデータタイプを選択します。 - [ Definition ] (定義)フィールドに、カスタムメトリクスを定義するSQLコードを入力します。
UIでモニターの結果を更新して表示する
モニターを手動で実行するには、「 メトリクスの更新」をクリックします。
monitor メトリクステーブルに格納される統計に関する情報については、 Monitor メトリクステーブルを参照してください。 メトリクス テーブルは Unity Catalog テーブルです。 ノートブックまたは SQL クエリー エクスプローラーでクエリを実行し、カタログ エクスプローラーで表示できます。