Pular para o conteúdo principal

Referência da tabela do sistema de resultados do monitoramento da qualidade dos dados

info

Beta

Este recurso está em Beta.

Esta página descreve o esquema da tabela do sistema de resultados de monitoramento de qualidade de dados e inclui consultas de exemplo. A tabela armazena resultados de verificações de atualização e integridade, bem como análises de impacto e causa raiz posteriores, em todas as tabelas habilitadas para monitoramento de qualidade de dados em seu metastore.

Caminho da tabela : system.data_quality_monitoring.table_results

Somente administradores account podem acessar esta tabela e devem conceder acesso a outros conforme necessário. A tabela do sistema usa o armazenamentodefault. Porque ele contém valores de amostra e uso posterior, tenha cuidado ao conceder acesso a outros.

Esquema da tabela de resultados do monitoramento da qualidade dos dados

A tabela system.data_quality_monitoring.table_results usa o seguinte esquema:

Nome da coluna

Conteúdo (para o tipo de dados struct )

Tipo de dados

Descrição

Dados de exemplo

event_time

carimbo de data/hora

Hora em que a linha foi gerada.

2025-06-27T12:00:00

catalog_name

string

Nome do catálogo. Usado para identificar a tabela.

main

schema_name

string

Nome do esquema. Usado para identificar a tabela.

default

table_name

string

Nome da tabela. Usado para identificar a tabela.

events

catalog_id

string

ID estável para o catálogo.

3f1a7d6e-9c59-4b76-8c32-8d4c74e289fe

schema_id

string

ID estável para o esquema.

3f1a7d6e-9c59-4b76-8c32-8d4c74e289fe

table_id

string

ID estável para a tabela.

3f1a7d6e-9c59-4b76-8c32-8d4c74e289fe

status

string

Estado de saúde consolidado no nível da tabela. "Não saudável" se qualquer verificação ou grupo não estiver saudável.

Healthy, Unhealthy, Unknown

freshness

struct

Verificações de frescor.

status

string

Status geral de frescor.

Unhealthy

commit_freshness

struct

confirmar resultados da verificação de frescor.

completeness

struct

Resultados da verificação de integridade.

status

string

Status da verificação de integridade.

Unhealthy

total_row_count

struct

Número total de linhas na tabela ao longo do tempo.

daily_row_count

struct

Número de linhas adicionadas a cada dia.

downstream_impact

struct

Resumo do impacto a jusante com base no gráfico de dependência.

impact_level

int

Indicador de gravidade (0 = nenhum, 1 = baixo, 2 = médio, 3 = alto, 4 = muito alto).

2

num_downstream_tables

int

Número de tabelas downstream afetadas.

5

num_queries_on_affected_tables

int

Número de consultas executadas em tabelas downstream afetadas nos últimos 30 dias.

120

root_cause_analysis

struct

informações sobre o trabalho upstream que contribui para o problema.

upstream_jobs

matriz

Metadados para cada trabalho upstream.

commit_freshness estrutura de matriz

A estrutura commit_freshness contém o seguinte:

Nome do item

Tipo de dados

Descrição

Dados de exemplo

status

string

Status da verificação de atualização do commit.

Unhealthy

error_code

string

Mensagem de erro encontrada durante a verificação.

FAILED_TO_FIT_MODEL

last_value

carimbo de data/hora

Último registro de data e hora de commit .

2025-06-27T11:30:00

predicted_value

carimbo de data/hora

Tempo previsto para que a tabela fosse atualizada.

2025-06-27T11:45:00

Estrutura de matriz total_row_count e daily_row_count

As estruturas total_row_count e daily_row_count contêm o seguinte:

Nome do item

Tipo de dados

Descrição

Dados de exemplo

status

string

Status do cheque.

Unhealthy

error_code

string

Mensagem de erro encontrada durante a verificação.

FAILED_TO_FIT_MODEL

last_value

int

Número de linhas observadas nas últimas 24 horas.

500

min_predicted_value

int

Número mínimo esperado de linhas nas últimas 24 horas.

10

max_predicted_value

int

Número máximo esperado de linhas nas últimas 24 horas.

1000

upstream_jobs estrutura de matriz

A estrutura da matriz mostrada na coluna upstream_jobs é mostrada na tabela a seguir:

Nome do item

Tipo de dados

Descrição

Dados de exemplo

job_id

string

ID Job .

12345

workspace_id

string

ID do espaço de trabalho.

6051921418418893

job_name

string

Nome de exibição Job .

daily_refresh

last_run_status

string

Status da execução mais recente.

SUCCESS

run_page_url

string

URL da página de execução do trabalho Databricks .

https://.../runs/123

Informações sobre impacto a jusante

Na tabela de resultados de logs, a coluna downstream_impact é uma struct com os seguintes campos:

campo

Tipo

Descrição

impact_level

int

Valor inteiro entre 1 e 4 indicando a gravidade do problema de qualidade dos dados. Valores mais altos indicam maior interrupção.

num_downstream_tables

int

Número de tabelas downstream que podem ser afetadas pelo problema identificado.

num_queries_on_affected_tables

int

Número total de consultas que referenciaram as tabelas afetadas e downstream nos últimos 30 dias.

Consultas de exemplo

Substitua os valores dos parâmetros pelos seus antes de executar.

Obtenha todos os incidentes atuais em um esquema

SQL
WITH latest_rows AS (
SELECT
*,
ROW_NUMBER() OVER (
PARTITION BY table_id
ORDER BY event_time DESC
) AS rn
FROM
system.data_quality_monitoring.table_results
WHERE
catalog_name = "c"
AND schema_name = "s"
)

SELECT *
FROM latest_rows
WHERE
rn = 1
AND status = "Unhealthy"

Obtenha todas as tabelas de incidentes em um esquema que tenham um alto impacto downstream

SQL
WITH latest_rows AS (
SELECT
*,
ROW_NUMBER() OVER (
PARTITION BY table_id
ORDER BY event_time DESC
) AS rn
FROM
system.data_quality_monitoring.table_results
WHERE
catalog_name = "c"
AND schema_name = "s"
)
SELECT *
FROM latest_rows
WHERE rn = 1
AND downstream_impact.impact_level >= 3

Obter todas as tabelas em um esquema que estão atualmente afetadas por um problema de atualização

SQL
WITH latest_rows AS (
SELECT
*,
ROW_NUMBER() OVER (
PARTITION BY table_id
ORDER BY event_time DESC
) AS rn
FROM
system.data_quality_monitoring.table_results
WHERE
catalog_name = "c"
AND schema_name = "s"
)

SELECT *
FROM latest_rows
WHERE rn = 1
AND freshness.status = "Unhealthy"

Obter todos os registros históricos de uma tabela

SQL
SELECT *
FROM system.data_quality_monitoring.table_results
WHERE
catalog_name = "c"
AND schema_name = "s"
AND table_name = "t"