Referência da tabela do sistema de resultados do monitoramento da qualidade dos dados
Beta
Este recurso está em Beta.
Esta página descreve o esquema da tabela do sistema de resultados de monitoramento de qualidade de dados e inclui consultas de exemplo. A tabela armazena resultados de verificações de atualização e integridade, bem como análises de impacto e causa raiz posteriores, em todas as tabelas habilitadas para monitoramento de qualidade de dados em seu metastore.
Caminho da tabela : system.data_quality_monitoring.table_results
Somente administradores account podem acessar esta tabela e devem conceder acesso a outros conforme necessário. A tabela do sistema usa o armazenamentodefault. Porque ele contém valores de amostra e uso posterior, tenha cuidado ao conceder acesso a outros.
Esquema da tabela de resultados do monitoramento da qualidade dos dados
A tabela system.data_quality_monitoring.table_results
usa o seguinte esquema:
Nome da coluna | Conteúdo (para o tipo de dados | Tipo de dados | Descrição | Dados de exemplo |
---|---|---|---|---|
| carimbo de data/hora | Hora em que a linha foi gerada. |
| |
| string | Nome do catálogo. Usado para identificar a tabela. |
| |
| string | Nome do esquema. Usado para identificar a tabela. |
| |
| string | Nome da tabela. Usado para identificar a tabela. |
| |
| string | ID estável para o catálogo. |
| |
| string | ID estável para o esquema. |
| |
| string | ID estável para a tabela. |
| |
| string | Estado de saúde consolidado no nível da tabela. "Não saudável" se qualquer verificação ou grupo não estiver saudável. |
| |
| struct | Verificações de frescor. | ||
| string | Status geral de frescor. |
| |
| confirmar resultados da verificação de frescor. | |||
| struct | Resultados da verificação de integridade. | ||
| string | Status da verificação de integridade. |
| |
| Número total de linhas na tabela ao longo do tempo. | |||
| Número de linhas adicionadas a cada dia. | |||
| struct | Resumo do impacto a jusante com base no gráfico de dependência. | ||
| int | Indicador de gravidade (0 = nenhum, 1 = baixo, 2 = médio, 3 = alto, 4 = muito alto). | 2 | |
| int | Número de tabelas downstream afetadas. | 5 | |
| int | Número de consultas executadas em tabelas downstream afetadas nos últimos 30 dias. | 120 | |
| struct | informações sobre o trabalho upstream que contribui para o problema. | ||
| Metadados para cada trabalho upstream. |
commit_freshness
estrutura de matriz
A estrutura commit_freshness
contém o seguinte:
Nome do item | Tipo de dados | Descrição | Dados de exemplo |
---|---|---|---|
| string | Status da verificação de atualização do commit. |
|
| string | Mensagem de erro encontrada durante a verificação. |
|
| carimbo de data/hora | Último registro de data e hora de commit . |
|
| carimbo de data/hora | Tempo previsto para que a tabela fosse atualizada. |
|
Estrutura de matriz total_row_count
e daily_row_count
As estruturas total_row_count
e daily_row_count
contêm o seguinte:
Nome do item | Tipo de dados | Descrição | Dados de exemplo |
---|---|---|---|
| string | Status do cheque. |
|
| string | Mensagem de erro encontrada durante a verificação. |
|
| int | Número de linhas observadas nas últimas 24 horas. |
|
| int | Número mínimo esperado de linhas nas últimas 24 horas. |
|
| int | Número máximo esperado de linhas nas últimas 24 horas. |
|
upstream_jobs
estrutura de matriz
A estrutura da matriz mostrada na coluna upstream_jobs
é mostrada na tabela a seguir:
Nome do item | Tipo de dados | Descrição | Dados de exemplo |
---|---|---|---|
| string | ID Job . |
|
| string | ID do espaço de trabalho. |
|
| string | Nome de exibição Job . |
|
| string | Status da execução mais recente. |
|
| string | URL da página de execução do trabalho Databricks . |
|
Informações sobre impacto a jusante
Na tabela de resultados de logs, a coluna downstream_impact
é uma struct
com os seguintes campos:
campo | Tipo | Descrição |
---|---|---|
| int | Valor inteiro entre 1 e 4 indicando a gravidade do problema de qualidade dos dados. Valores mais altos indicam maior interrupção. |
| int | Número de tabelas downstream que podem ser afetadas pelo problema identificado. |
| int | Número total de consultas que referenciaram as tabelas afetadas e downstream nos últimos 30 dias. |
Consultas de exemplo
Substitua os valores dos parâmetros pelos seus antes de executar.
Obtenha todos os incidentes atuais em um esquema
WITH latest_rows AS (
SELECT
*,
ROW_NUMBER() OVER (
PARTITION BY table_id
ORDER BY event_time DESC
) AS rn
FROM
system.data_quality_monitoring.table_results
WHERE
catalog_name = "c"
AND schema_name = "s"
)
SELECT *
FROM latest_rows
WHERE
rn = 1
AND status = "Unhealthy"
Obtenha todas as tabelas de incidentes em um esquema que tenham um alto impacto downstream
WITH latest_rows AS (
SELECT
*,
ROW_NUMBER() OVER (
PARTITION BY table_id
ORDER BY event_time DESC
) AS rn
FROM
system.data_quality_monitoring.table_results
WHERE
catalog_name = "c"
AND schema_name = "s"
)
SELECT *
FROM latest_rows
WHERE rn = 1
AND downstream_impact.impact_level >= 3
Obter todas as tabelas em um esquema que estão atualmente afetadas por um problema de atualização
WITH latest_rows AS (
SELECT
*,
ROW_NUMBER() OVER (
PARTITION BY table_id
ORDER BY event_time DESC
) AS rn
FROM
system.data_quality_monitoring.table_results
WHERE
catalog_name = "c"
AND schema_name = "s"
)
SELECT *
FROM latest_rows
WHERE rn = 1
AND freshness.status = "Unhealthy"
Obter todos os registros históricos de uma tabela
SELECT *
FROM system.data_quality_monitoring.table_results
WHERE
catalog_name = "c"
AND schema_name = "s"
AND table_name = "t"