Crie um monitor usando a IU do Databricks

Este artigo demonstra como criar um monitor de dados usando a IU do Databricks. Você também pode usar a API.

Para acessar a interface do usuário do Databricks, faça o seguinte:

  1. Na barra lateral esquerda workspace , clique em Ícone de catálogo para abrir o Explorador de Catálogo.

  2. Navegue até a tabela que deseja monitorar.

  3. Clique na tab Qualidade.

  4. Clique no botão Get começar .

  5. Em Criar monitor, escolha as opções que deseja configurar o monitor.

Criação de perfil

No menu Tipo de perfil , selecione o tipo de monitor que deseja criar. Os tipos de perfil são mostrados na tabela.

Tipo de perfil

Descrição

Perfil de série temporal

Uma tabela contendo valores medidos ao longo do tempo. Esta tabela inclui uma coluna de carimbo de data/hora.

Perfil de inferência

Uma tabela contendo valores previstos gerados por uma classificação machine learning ou modelo de regressão. Esta tabela inclui um carimbo de data/hora, um ID de modelo, entradas de modelo (recursos), uma coluna contendo previsões de modelo e colunas opcionais contendo IDs de observação exclusivos e rótulos de informações básicas. Ele também pode conter metadados, como informações demográficas, que não são usadas como entrada para o modelo, mas podem ser úteis para investigações de imparcialidade e viés ou outro monitoramento.

Perfil de snapshot

Qualquer tabela Delta gerenciar, tabela externa, view, materializada view, ou tabela de transmissão.

Se você selecionar TimeSeries ou Inference, parâmetros adicionais serão necessários e descritos nas seções a seguir.

Observação

  • Quando o senhor cria pela primeira vez uma série temporal ou um perfil de inferência, o monitor analisa apenas os dados dos 30 dias anteriores à sua criação. Depois que o monitor é criado, todos os novos dados são processados.

  • Os monitores definidos na exibição materializada e nas tabelas de transmissão não são compatíveis com o processamento incremental.

Dica

Para perfis TimeSeries e Inference, é uma prática recomendada ativar o feed de dados de alteração (CDF) em sua tabela. Quando o CDF está ativado, somente os dados recém-anexados são processados, em vez de reprocessar a tabela inteira a cada refresh. Isso torna a execução mais eficiente e reduz os custos, pois o senhor escala o monitoramento em várias tabelas.

TimeSeries perfil

Para um perfil TimeSeries , você deve fazer as seguintes seleções:

  • Especifique as granularidades métricas que determinam como particionar os dados em janelas ao longo do tempo.

  • Especifique a coluna Timestamp, a coluna da tabela que contém o carimbo de data/hora. O tipo de dados da coluna de carimbo de data/hora deve ser TIMESTAMP ou um tipo que possa ser convertido em carimbos de data/hora usando a função to_timestamp PySpark .

Inference perfil

Para um perfil Inference , além das granularidades e carimbo de data/hora, você deve fazer as seguintes seleções:

  • Selecione o tipo de problema, classificação ou regressão.

  • Especifique a coluna Previsão, a coluna que contém os valores previstos do modelo.

  • Opcionalmente, especifique a coluna de rótulo, a coluna que contém a verdade básica para as previsões do modelo.

  • Especifique a coluna Model ID, a coluna que contém o id do modelo usado para previsão.

programar

Para configurar um monitor para ser executado com base no programa, selecione refresh no programar e selecione a frequência e o horário para o monitor ser executado. Se você não deseja que o monitor execute automaticamente, selecione refresh manualmente. Se você selecionar refresh manualmente, poderá refresh as métricas posteriormente na tab Qualidade .

Notificações

Para configurar as notificações do email para um monitor, digite o endereço email a ser notificado e selecione as notificações a serem ativadas. Há suporte para até 5 e-mails por tipo de evento de notificação.

Em geral

Na seção Geral , você precisa especificar uma configuração necessária e algumas opções de configuração adicionais:

  • Você deve especificar o esquema do Unity Catalog onde as tabelas de métricas criadas pelo monitor são armazenadas. A localização deve estar no formato {catalog}.{schema}.

Você também pode especificar as seguintes configurações:

  • diretório ativo. Digite o caminho absoluto para o diretório existente para armazenar o ativo de monitoramento, como o painel gerado. Em default, os ativos são armazenados no diretório default: "/Usuários/{nome_do_usuário}/monitoramento/{nome_da_tabela}". Se o senhor digitar um local diferente nesse campo, o ativo será criado em "/{table_name}" no diretório especificado. Esse diretório pode estar em qualquer lugar do site workspace. Para monitores destinados a serem compartilhados dentro de uma organização, o senhor pode usar um caminho no diretório "/Shared/".

    Este campo não pode ser deixado em branco.

  • Nome da tabela de linha de baseUnity Catalog . Nome de uma tabela ou view que contém dados de linha de base para comparação. Para obter mais informações sobre tabelas de linha de base, consulte Tabela de entrada primária e tabela de linha de base.

  • expressões de fatiamento de métricas. As expressões de divisão permitem definir subconjuntos da tabela a serem monitorados, além da tabela como um todo. Para criar uma expressão de divisão, clique em Adicionar expressão e insira a definição da expressão. Por exemplo, a expressão "col_2 > 10" gera duas fatias: uma para col_2 > 10 e outra para col_2 <= 10. Como outro exemplo, a expressão "col_1" gerará uma fatia para cada valor exclusivo em col_1. Os dados são agrupados por cada expressão de forma independente, resultando em uma fatia separada para cada predicado e seus complementos.

  • Métricas personalizadas. As métricas personalizadas aparecem nas tabelas de métricas como qualquer métrica integrada. Para obter detalhes, consulte Usar métricas personalizadas com databricks lakehouse monitoramento. Para configurar métricas personalizadas, clique em Adicionar métricas personalizadas. - Insira um Nome para as métricas personalizadas. - Selecione as métricas personalizadas Type, um de Aggregate, Derived ou Drift. Para definições, consulte Tipos de métricas customizadas. - Na lista suspensa em Colunas de entrada, selecione as colunas às quais aplicar as métricas. - No campo Tipo de saída , selecione o tipo de dados Spark das métricas. - No campo Definição , insira o código SQL que define as métricas personalizadas.

Edite as configurações do monitor na interface do usuário

Depois de criar um monitor, você pode fazer alterações nas configurações do monitor clicando no botão Editar configuração do monitor na tab Qualidade .

Atualize e visualize os resultados do monitor na interface do usuário

Para executar o monitor manualmente, clique em refresh métricas.

Para obter informações sobre as estatísticas armazenadas nas tabelas de métricas do monitor, consulte Tabelas de métricas do monitor. As tabelas de métricas são tabelas do Unity Catalog. Você pode query -los no Notebook ou no SQL query Explorer e view -los no Catalog Explorer.

Controle o acesso às saídas do monitor

As tabelas de métricas e o painel criados por um monitor pertencem ao usuário que criou o monitor. Você pode usar os privilégios do Unity Catalog para controlar o acesso às tabelas de métricas. Para compartilhar painéis em um workspace, clique no botão Compartilhar no canto superior direito do painel.

Excluir um monitor da IU

Para excluir um monitor da IU, clique no menu kebab ao lado do botão refresh métricas e selecione Excluir monitor.