Criar um monitor usando a UI do Databricks

Este artigo demonstra como criar um monitor de dados usando a UI Databricks. O senhor também pode usar a API.

Para acessar a UI do Databricks, faça o seguinte:

Na barra lateral esquerda do site workspace, clique em para abrir o Catalog Explorer.
Navegue até a tabela que você deseja monitorar.
Clique em Quality tab.
Clique no botão Get começar .
Em Criar monitor , escolha as opções que você deseja configurar no monitor.

Criação de perfil

No menu suspenso Tipo de perfil , selecione o tipo de monitor que você deseja criar. Os tipos de perfil são mostrados na tabela.

Tipo de perfil	Descrição
Perfil de série temporal	Uma tabela contendo valores medidos ao longo do tempo. Essa tabela inclui uma coluna de carimbo de data/hora.
Perfil de snapshot	Qualquer Delta gerenciar tabela, tabela externa, view, materializada view, ou tabela de transmissão.
Perfil de inferência	Uma tabela contendo valores previstos gerados por um modelo de classificação ou regressão de aprendizado de máquina. Essa tabela inclui um registro de data e hora, um ID do modelo, entradas do modelo (recurso), uma coluna que contém previsões do modelo e colunas opcionais que contêm IDs de observação exclusivos e o rótulo da verdade fundamental. Ele também pode conter metadados, como informações demográficas, que não são usadas como entrada para o modelo, mas que podem ser úteis para investigações de imparcialidade e preconceito ou outro tipo de monitoramento.

Se você selecionar TimeSeries ou Inference, parâmetros adicionais serão necessários e serão descritos nas seções a seguir.

nota

Quando você cria pela primeira vez uma série temporal ou um perfil de inferência, o monitor analisa somente os dados dos 30 dias anteriores à sua criação. Depois que o monitor é criado, todos os novos dados são processados.
Os monitores definidos na visualização materializada não suportam processamento incremental.

dica

Para perfis TimeSeries e Inference, é uma prática recomendada ativar o feed de dados de alteração (CDF) em sua tabela. Quando o CDF está ativado, somente os dados recém-anexados são processados, em vez de reprocessar a tabela inteira a cada refresh. Isso torna a execução mais eficiente e reduz os custos, pois o senhor escala o monitoramento em várias tabelas.

Perfil`TimeSeries`

Para um perfil TimeSeries, você deve fazer as seguintes seleções:

Especifique as granularidades métricas que determinam como particionar os dados em janelas ao longo do tempo.
Especifique a coluna Timestamp , a coluna na tabela que contém o timestamp. O tipo de dados da coluna timestamp deve ser TIMESTAMP ou um tipo que possa ser convertido em timestamps usando a to_timestamp função do PySpark.

Perfil`Inference`

Para um perfil Inference, além das granularidades e do carimbo de data/hora, você deve fazer as seguintes seleções:

Selecione o tipo de problema , classificação ou regressão.
Especifique a coluna Predição , a coluna que contém os valores previstos do modelo.
Opcionalmente, especifique a coluna rótulo , a coluna que contém a verdade básica para as previsões do modelo.
Especifique a coluna ID do modelo , a coluna que contém a identificação do modelo usado para predição.

Opções avançadas

Na seção Advanced options (Opções avançadas ), é possível definir a programação, adicionar notificações do email, adicionar expressões métricas e de corte personalizadas e alterar a configuração do monitor default.

programar

Para configurar um monitor para execução em uma base programada , selecione atualizar em programar e selecione a frequência e o horário para a execução do monitor. Se o senhor não quiser que o monitor seja executado automaticamente, selecione atualizar manualmente . Se o senhor selecionar atualizar manualmente , poderá posteriormente refresh as métricas do Quality tab.

Notificações

Para configurar as notificações do email para um monitor, digite o endereço email a ser notificado e selecione as notificações a serem ativadas. Há suporte para até 5 e-mails por tipo de evento de notificação.

métricas

Na seção métricas , o senhor pode optar por alterar as seguintes configurações default:

Nome do esquema das tabelas métricas : O esquema Unity Catalog onde as tabelas métricas criadas pelo monitor são armazenadas. Esse local deve estar no formato {catálogo}. {esquema}. Em default, isso é definido como o mesmo local do esquema da tabela monitorada. Você pode especificar um local diferente.
diretório ativo : O caminho absoluto para um diretório existente para armazenar o monitoramento ativo. Em default, os ativos são armazenados no diretório default: "/Users/{user_name}/monitoramento/{table_name}". Se o senhor digitar um local diferente nesse campo, o ativo será criado em "/{table_name}" no diretório especificado. Esse diretório pode estar em qualquer lugar do site workspace. Para monitores destinados a serem compartilhados em uma organização, você pode usar um caminho no diretório " /Shared/ ".

Esse campo não pode ser deixado em branco.

Você também pode especificar as seguintes configurações:

Unity Catalog nome da tabela de linha de base : Nome de uma tabela ou view que contém dados de linha de base para comparação.
Expressões de divisão de métricas : As expressões de divisão permitem que o senhor defina subconjuntos da tabela a serem monitorados, além da tabela como um todo. Para criar uma expressão de fatiamento, clique em Adicionar expressão e insira a definição da expressão. Por exemplo, a expressão "col_2 > 10" gera duas fatias: uma para col_2 > 10 e outra para col_2 <= 10. Como outro exemplo, a expressão "col_1" gerará uma fatia para cada valor exclusivo em col_1. Os dados são agrupados por cada expressão de forma independente, resultando em uma fatia separada para cada predicado e seus complementos.
Métricas personalizadas : As métricas personalizadas aparecem nas tabelas de métricas como qualquer métrica integrada. Para configurar uma métrica personalizada, clique em Add custom métricas .
- Digite um nome para as métricas personalizadas.
- Selecione o tipo de métricas personalizadas. Escolha entre: Aggregate, Derived ou Drift.
- Na lista suspensa em Colunas de entrada , selecione as colunas às quais aplicar as métricas.
- No campo Output type (Tipo de saída ), selecione o tipo de dados Spark das métricas.
- No campo Definition (Definição ), digite o código SQL que define as métricas personalizadas.

Edite as configurações do monitor na interface

Depois de criar um monitor, o senhor pode fazer alterações nas configurações do monitor clicando no botão Edit monitor configuration (Editar configuração do monitor ) no site Quality tab.

Atualizar e view monitorar os resultados na interface do usuário

Para executar o monitor manualmente, clique em atualizar métricas .

Para obter informações sobre as estatísticas armazenadas nas tabelas de monitoração métricas, consulte Tabelas de monitoração métricas. As tabelas métricas são tabelas do Unity Catalog. O senhor pode consultá-los no Notebook ou no explorador de consultas SQL e view no Catalog Explorer.

Controle o acesso às saídas do monitor

As tabelas de métricas e o painel criados por um monitor são de propriedade do usuário que criou o monitor. O senhor pode usar os privilégios do Unity Catalog para controlar o acesso às tabelas métricas. Para compartilhar painéis em um workspace, clique no botão Share (Compartilhar ) no canto superior direito do painel.

Excluir um monitor da interface

Para excluir um monitor da interface do usuário, clique no menu kebab ao lado do botão atualizar métricas e selecione Excluir monitor .

Criação de perfil​

PerfilTimeSeries​

PerfilInference​

Opções avançadas​

programar​

Notificações​

métricas​

Edite as configurações do monitor na interface​

Atualizar e view monitorar os resultados na interface do usuário​

Controle o acesso às saídas do monitor​

Excluir um monitor da interface​