データ品質モニタリング結果 システムテーブル リファレンス
ベータ版
この機能はベータ版です。
このページでは、データ品質モニタリング結果システム テーブル スキーマの概要を説明し、サンプル クエリを示します。 テーブルには、メタストア内のデータ品質モニタリングが有効になっているすべてのテーブルにわたる、最新性と完全性のチェックの結果、および下流への影響と根本原因の分析が保存されます。
テーブルパス : system.data_quality_monitoring.table_results
このテーブルにアクセスできるのはアカウント管理者のみであり、必要に応じて他のユーザーにアクセス権を付与する必要があります。システムテーブルは勝手にストレージを使用します。 サンプル値とダウンストリームの使用状況データが含まれているため、他のユーザーにアクセス権を付与する際には注意してください。
データ品質モニタリング結果テーブルのスキーマ
system.data_quality_monitoring.table_results
テーブルは次のスキーマを使用します:
列名 | コンテンツ( | データ型 | 説明 | サンプルデータ |
---|---|---|---|---|
| timestamp | 行が生成された時刻。 |
| |
| string | カタログの名前。テーブルを識別するために使用されます。 |
| |
| string | スキーマの名前。テーブルを識別するために使用されます。 |
| |
| string | テーブルの名前。テーブルを識別するために使用されます。 |
| |
| string | カタログの安定した ID。 |
| |
| string | スキーマの安定した ID。 |
| |
| string | テーブルの安定した ID。 |
| |
| string | テーブル レベルで統合されたヘルス ステータス。いずれかのチェックまたはグループが正常でない場合は、「異常」となります。 |
| |
| struct | 鮮度チェック。 | ||
| string | 全体的な鮮度の状態。 |
| |
| コミットの鮮度チェック結果。 | |||
| struct | 完全性チェックの結果。 | ||
| string | 完全性チェックのステータス。 |
| |
| 一定期間にわたるテーブル内の行の合計数。 | |||
| 毎日追加される行数。 | |||
| struct | 依存関係グラフに基づく下流への影響の概要。 | ||
| int | 重大度インジケーター (0 = なし、1 = 低、2 = 中、3 = 高、4 = 非常に高)。 | 2 | |
| int | 影響を受けるダウンストリーム テーブルの数。 | 5 | |
| int | 過去 30 日間に影響を受けていたダウンストリーム テーブルで実行されたクエリの数。 | 120 | |
| struct | 問題の原因となっている上流のジョブに関する情報。 | ||
| 各アップストリームジョブのメタデータ。 |
commit_freshness
配列構造
commit_freshness
構造体には次のものが含まれています。
アイテム名 | データ型 | 説明 | サンプルデータ |
---|---|---|---|
| string | コミットの鮮度チェックのステータス。 |
|
| string | チェック中にエラー メッセージが検出されました。 |
|
| timestamp | 最後のコミットのタイムスタンプ。 |
|
| timestamp | テーブルが更新されるはずだった予測時刻。 |
|
total_row_count
とdaily_row_count
配列構造
total_row_count
およびdaily_row_count
構造体には次の内容が含まれます。
アイテム名 | データ型 | 説明 | サンプルデータ |
---|---|---|---|
| string | チェックのステータス。 |
|
| string | チェック中にエラー メッセージが検出されました。 |
|
| int | 過去 24 時間に観測された行数。 |
|
| int | 過去 24 時間の最小予想行数。 |
|
| int | 過去 24 時間の予想行数の最大数。 |
|
upstream_jobs
配列構造
upstream_jobs
列に表示される配列の構造を次の表に示します。
アイテム名 | データ型 | 説明 | サンプルデータ |
---|---|---|---|
| string | ジョブ ID。 |
|
| string | ワークスペース ID。 |
|
| string | ジョブの表示名。 |
|
| string | 最新の実行のステータス。 |
|
| string | Databricks ジョブ実行ページの URL。 |
|
下流への影響情報
ログに記録された結果テーブルでは、列downstream_impact
次のフィールドを持つstruct
です。
フィールド | Type | 説明 |
---|---|---|
| int | データ品質の問題の重大度を示す 1 ~ 4 の整数値。値が高いほど混乱が大きいことを示します。 |
| int | 特定された問題の影響を受ける可能性があるダウンストリーム テーブルの数。 |
| int | 過去 30 日間に影響を受けるテーブルとダウンストリーム テーブルを参照したクエリの合計数。 |
クエリの例
実行する前に、問題の値を自分のものに置き換えてください。
スキーマ内の現在のインシデントをすべて取得する
WITH latest_rows AS (
SELECT
*,
ROW_NUMBER() OVER (
PARTITION BY table_id
ORDER BY event_time DESC
) AS rn
FROM
system.data_quality_monitoring.table_results
WHERE
catalog_name = "c"
AND schema_name = "s"
)
SELECT *
FROM latest_rows
WHERE
rn = 1
AND status = "Unhealthy"
下流への影響が大きいスキーマ内のすべてのインシデント テーブルを取得します。
WITH latest_rows AS (
SELECT
*,
ROW_NUMBER() OVER (
PARTITION BY table_id
ORDER BY event_time DESC
) AS rn
FROM
system.data_quality_monitoring.table_results
WHERE
catalog_name = "c"
AND schema_name = "s"
)
SELECT *
FROM latest_rows
WHERE rn = 1
AND downstream_impact.impact_level >= 3
スキーマ内で現在鮮度の問題の影響を受けているすべてのテーブルを取得します
WITH latest_rows AS (
SELECT
*,
ROW_NUMBER() OVER (
PARTITION BY table_id
ORDER BY event_time DESC
) AS rn
FROM
system.data_quality_monitoring.table_results
WHERE
catalog_name = "c"
AND schema_name = "s"
)
SELECT *
FROM latest_rows
WHERE rn = 1
AND freshness.status = "Unhealthy"
テーブルのすべての履歴レコードを取得する
SELECT *
FROM system.data_quality_monitoring.table_results
WHERE
catalog_name = "c"
AND schema_name = "s"
AND table_name = "t"