Qualidade de dados
O monitoramento da qualidade dos dados ajuda você a garantir a qualidade de todos os seus dados ativos no Unity Catalog. O monitoramento da qualidade dos dados inclui as seguintes funcionalidades:
- detecção de anomalia . a detecção de anomalias permite monitoramento escalonável da qualidade dos dados com um clique. Ele monitora todas as tabelas em um esquema usando uma varredura inteligente que prioriza as tabelas importantes e ignora as de baixo impacto. Databricks avalia automaticamente a qualidade dos dados, analisando padrões históricos para determinar a atualidade e a integridade de cada tabela.
 - perfil de dados . A análise de perfil de dados fornece estatísticas resumidas dos dados em uma tabela. Você também pode usá-lo para acompanhar o desempenho de aplicativos GenAI, modelo de machine learning e endpoint de modelo de serviço, monitorando tabelas de inferência que contêm entradas e previsões do modelo.
 
Qualidade de dados? era anteriormente conhecida como Lakehouse.
Por que usar detecção de anomalia?
Para extrair informações úteis dos seus dados, você precisa ter confiança na qualidade deles. A detecção de anomalias permite monitorar tabelas de frescor e integridade .
A "frescura" refere-se à frequência com que uma tabela foi atualizada. detecção de anomalia analisa a história do commit em uma tabela e constrói um modelo por tabela para prever o horário do próximo commit. Se uma confirmação (commit) for feita com um atraso incomum, a tabela será marcada como obsoleta.
O termo "completude" refere-se ao número de linhas que se espera que sejam gravadas na tabela nas últimas 24 horas. A detecção de anomalia analisa a contagem histórica de linhas e, com base nesses dados, prevê um intervalo de números esperados de linhas. Se o número de linhas inseridas nas últimas 24 horas for menor que o limite inferior desse intervalo, a tabela será marcada como incompleta.
Por que usar perfil de dados?
A análise de perfil de dados fornece medidas quantitativas que ajudam a monitorar e confirmar a qualidade e a consistência dos seus dados ao longo do tempo. A análise de perfil de dados captura métricas históricas da distribuição de dados de uma tabela ou do desempenho do modelo correspondente, que podem ser usadas para gerar estatísticas resumidas rápidas. Você pode usar essas categorias para monitorar uma tabela e enviar alertas quando houver alterações.
A análise de perfil de dados ajuda você a responder perguntas como as seguintes:
- Como é a integridade dos dados e como ela muda com o tempo? Por exemplo, qual é a fração de valores nulos ou zero nos dados atuais, e, ela aumentou?
 - Como é a distribuição estatística dos dados e como ela muda com o tempo? Por exemplo, qual é o 90º percentil de uma coluna numérica? Ou, qual é a distribuição de valores em uma coluna categórica e como ela difere de ontem?
 - Há desvio entre os dados atuais e uma linha de base conhecida ou entre janelas de tempo sucessivas dos dados?
 - Como é a distribuição estatística ou desvio de um subconjunto ou fatia dos dados?
 - Como as entradas e previsões do modelo de ML estão mudando ao longo do tempo?
 - Qual é a tendência do desempenho do modelo com o tempo? A versão do modelo A apresenta um desempenho melhor do que a versão B?
 
Além disso, o perfil de dados permite controlar a granularidade temporal das observações e configurar métricas personalizadas.
O monitoramento da qualidade dos dados não modifica nenhuma das tabelas monitoradas, nem adiciona sobrecarga a qualquer tarefa que preencha essas tabelas.
Comece com monitoramento de qualidade de dados
Para obter detalhes sobre detecção de anomalia, consulte detecção de anomalia.
Para obter detalhes sobre perfil de dados, consulte perfil de dados.