Criar um monitor usando a UI do Databricks
Visualização
Esse recurso está em Public Preview.
Este artigo demonstra como criar um monitor de dados usando a UI Databricks. O senhor também pode usar a API.
Para acessar a UI do Databricks, faça o seguinte:
- Na barra lateral esquerda do site workspace, clique em
para abrir o Catalog Explorer.
- Navegue até a tabela que você deseja monitorar.
- Clique em Quality tab.
- Clique no botão Get começar .
- Em Criar monitor , escolha as opções que você deseja configurar no monitor.
Criação de perfil
No menu Tipo de perfil , selecione o tipo de monitor que você deseja criar. Os tipos de perfil são mostrados na tabela.
Tipo de perfil | Descrição |
---|---|
Perfil de série temporal | Uma tabela contendo valores medidos ao longo do tempo. Essa tabela inclui uma coluna de carimbo de data/hora. |
Perfil de inferência | Uma tabela contendo valores previstos gerados por um modelo de classificação ou regressão de aprendizado de máquina. Essa tabela inclui um registro de data e hora, um ID do modelo, entradas do modelo (recurso), uma coluna que contém previsões do modelo e colunas opcionais que contêm IDs de observação exclusivos e o rótulo da verdade fundamental. Ele também pode conter metadados, como informações demográficas, que não são usadas como entrada para o modelo, mas que podem ser úteis para investigações de imparcialidade e preconceito ou outro tipo de monitoramento. |
Perfil de snapshot | Qualquer Delta gerenciar tabela, tabela externa, view, materializada view, ou tabela de transmissão. |
Se você selecionar TimeSeries
ou Inference
, parâmetros adicionais serão necessários e serão descritos nas seções a seguir.
- Quando você cria pela primeira vez uma série temporal ou um perfil de inferência, o monitor analisa somente os dados dos 30 dias anteriores à sua criação. Depois que o monitor é criado, todos os novos dados são processados.
- Os monitores definidos na exibição materializada e nas tabelas de transmissão não são compatíveis com o processamento incremental.
Para perfis TimeSeries
e Inference
, é uma prática recomendada ativar o feed de dados de alteração (CDF) em sua tabela. Quando o CDF está ativado, somente os dados recém-anexados são processados, em vez de reprocessar a tabela inteira a cada refresh. Isso torna a execução mais eficiente e reduz os custos, pois o senhor escala o monitoramento em várias tabelas.
PerfilTimeSeries
Para um perfil TimeSeries
, você deve fazer as seguintes seleções:
- Especifique as granularidades métricas que determinam como particionar os dados em janelas ao longo do tempo.
- Especifique a coluna Timestamp , a coluna na tabela que contém o timestamp. O tipo de dados da coluna timestamp deve ser
TIMESTAMP
ou um tipo que possa ser convertido em timestamps usando ato_timestamp
função do PySpark.
PerfilInference
Para um perfil Inference
, além das granularidades e do carimbo de data/hora, você deve fazer as seguintes seleções:
- Selecione o tipo de problema , classificação ou regressão.
- Especifique a coluna Predição , a coluna que contém os valores previstos do modelo.
- Opcionalmente, especifique a coluna rótulo , a coluna que contém a verdade básica para as previsões do modelo.
- Especifique a coluna ID do modelo , a coluna que contém a identificação do modelo usado para predição.
programar
Para configurar um monitor para execução em uma base programada , selecione atualizar em programar e selecione a frequência e o horário para a execução do monitor. Se o senhor não quiser que o monitor seja executado automaticamente, selecione atualizar manualmente . Se o senhor selecionar atualizar manualmente , poderá posteriormente refresh as métricas do Quality tab.
Notificações
Para configurar as notificações do email para um monitor, digite o endereço email a ser notificado e selecione as notificações a serem ativadas. Há suporte para até 5 e-mails por tipo de evento de notificação.
Geral
Na seção Geral , você precisa especificar uma configuração necessária e algumas opções de configuração adicionais:
- O senhor deve especificar o esquema do Unity Catalog onde as tabelas métricas criadas pelo monitor são armazenadas. O local deve estar no formato {catálogo}. {esquema}.
Você também pode especificar as seguintes configurações:
-
diretório ativo . Digite o caminho absoluto para o diretório existente para armazenar o monitoramento ativo, como o painel gerado. Em default, os ativos são armazenados no diretório default: "/Usuários/{nome_do_usuário}/monitoramento/{nome_da_tabela}". Se o senhor digitar um local diferente nesse campo, o ativo será criado em "/{table_name}" no diretório especificado. Esse diretório pode estar em qualquer lugar do site workspace. Para monitores destinados a serem compartilhados em uma organização, você pode usar um caminho no diretório “/Shared/”.
Esse campo não pode ser deixado em branco.
-
Nome da tabela de linha de base do Unity Catalog . Nome de uma tabela ou view que contém dados de linha de base para comparação. Para obter mais informações sobre tabelas de linha de base, consulte Tabela de entrada primária e tabela de linha de base.
-
Expressões de fatiamento de métricas . As expressões de fatiamento permitem definir subconjuntos da tabela a serem monitorados, além da tabela como um todo. Para criar uma expressão de fatiamento, clique em Adicionar expressão e insira a definição da expressão. Por exemplo, a expressão
"col_2 > 10"
gera duas fatias: uma paracol_2 > 10
e outra paracol_2 <= 10
. Como outro exemplo, a expressão"col_1"
gerará uma fatia para cada valor exclusivo emcol_1
. Os dados são agrupados por cada expressão de forma independente, resultando em uma fatia separada para cada predicado e seus complementos. -
Métricas personalizadas . As métricas personalizadas aparecem nas tabelas de métricas como qualquer métrica integrada. Para obter detalhes, consulte Use métricas personalizadas com Databricks lakehouse monitoring. Para configurar uma métrica personalizada, clique em Add custom métricas .
- Digite um nome para as métricas personalizadas.
- Selecione o tipo de métricas personalizadas, uma das opções
Aggregate
,Derived
, ouDrift
. Para obter definições, consulte Tipos de métricas personalizadas. - Na lista suspensa em Colunas de entrada , selecione as colunas às quais aplicar as métricas.
- No campo Output type (Tipo de saída ), selecione o tipo de dados Spark das métricas.
- No campo Definition (Definição ), digite o código SQL que define as métricas personalizadas.
Edite as configurações do monitor na interface
Depois de criar um monitor, o senhor pode fazer alterações nas configurações do monitor clicando no botão Edit monitor configuration (Editar configuração do monitor ) no site Quality tab.
Atualizar e view monitorar os resultados na interface do usuário
Para executar o monitor manualmente, clique em atualizar métricas .
Para obter informações sobre as estatísticas armazenadas nas tabelas de monitoração métricas, consulte Tabelas de monitoração métricas. As tabelas métricas são tabelas do Unity Catalog. O senhor pode consultá-los no Notebook ou no explorador de consultas SQL e view no Catalog Explorer.
Controle o acesso às saídas do monitor
As tabelas de métricas e o painel criados por um monitor são de propriedade do usuário que criou o monitor. O senhor pode usar os privilégios do Unity Catalog para controlar o acesso às tabelas métricas. Para compartilhar painéis em um workspace, clique no botão Share (Compartilhar ) no canto superior direito do painel.
Excluir um monitor da interface
Para excluir um monitor da interface do usuário, clique no menu kebab ao lado do botão atualizar métricas e selecione Excluir monitor .