Criar um monitor usando a UI do Databricks
Este artigo demonstra como criar um monitor de dados usando a UI Databricks. O senhor também pode usar a API.
Para acessar a UI do Databricks, faça o seguinte:
- Na barra lateral esquerda do site workspace, clique em
para abrir o Catalog Explorer.
- Navegue até a tabela que você deseja monitorar.
- Clique em Quality tab.
- Clique no botão Get começar .
- Em Criar monitor , escolha as opções que você deseja configurar no monitor.
Criação de perfil
No menu Tipo de perfil , selecione o tipo de monitor que você deseja criar. Os tipos de perfil são mostrados na tabela.
Tipo de perfil | Descrição |
---|---|
Perfil de série temporal | Uma tabela contendo valores medidos ao longo do tempo. Essa tabela inclui uma coluna de carimbo de data/hora. |
Perfil de inferência | Uma tabela contendo valores previstos gerados por um modelo de classificação ou regressão de aprendizado de máquina. Essa tabela inclui um registro de data e hora, um ID do modelo, entradas do modelo (recurso), uma coluna que contém previsões do modelo e colunas opcionais que contêm IDs de observação exclusivos e o rótulo da verdade fundamental. Ele também pode conter metadados, como informações demográficas, que não são usadas como entrada para o modelo, mas que podem ser úteis para investigações de imparcialidade e preconceito ou outro tipo de monitoramento. |
Perfil de snapshot | Qualquer Delta gerenciar tabela, tabela externa, view, materializada view, ou tabela de transmissão. |
Se você selecionar TimeSeries
ou Inference
, parâmetros adicionais serão necessários e serão descritos nas seções a seguir.
- Quando você cria pela primeira vez uma série temporal ou um perfil de inferência, o monitor analisa somente os dados dos 30 dias anteriores à sua criação. Depois que o monitor é criado, todos os novos dados são processados.
- Os monitores definidos na exibição materializada e nas tabelas de transmissão não são compatíveis com o processamento incremental.
Para perfis TimeSeries
e Inference
, é uma prática recomendada ativar o feed de dados de alteração (CDF) em sua tabela. Quando o CDF está ativado, somente os dados recém-anexados são processados, em vez de reprocessar a tabela inteira a cada refresh. Isso torna a execução mais eficiente e reduz os custos, pois o senhor escala o monitoramento em várias tabelas.
PerfilTimeSeries
Para um perfil TimeSeries
, você deve fazer as seguintes seleções:
- Especifique as granularidades métricas que determinam como particionar os dados em janelas ao longo do tempo.
- Especifique a coluna Timestamp , a coluna na tabela que contém o timestamp. O tipo de dados da coluna timestamp deve ser
TIMESTAMP
ou um tipo que possa ser convertido em timestamps usando ato_timestamp
função do PySpark.
PerfilInference
Para um perfil Inference
, além das granularidades e do carimbo de data/hora, você deve fazer as seguintes seleções:
- Selecione o tipo de problema , classificação ou regressão.
- Especifique a coluna Predição , a coluna que contém os valores previstos do modelo.
- Opcionalmente, especifique a coluna rótulo , a coluna que contém a verdade básica para as previsões do modelo.
- Especifique a coluna ID do modelo , a coluna que contém a identificação do modelo usado para predição.
Opções avançadas
Na seção Advanced options (Opções avançadas ), é possível definir o programar, adicionar expressões métricas e de corte personalizadas e alterar a configuração do monitor default.
programar
Para configurar um monitor para execução em uma base programada , selecione atualizar em programar e selecione a frequência e o horário para a execução do monitor. Se o senhor não quiser que o monitor seja executado automaticamente, selecione atualizar manualmente . Se o senhor selecionar atualizar manualmente , poderá posteriormente refresh as métricas do Quality tab.
Notificações
Para configurar as notificações do email para um monitor, digite o endereço email a ser notificado e selecione as notificações a serem ativadas. Há suporte para até 5 e-mails por tipo de evento de notificação.
métricas
Na seção métricas , o senhor pode optar por alterar as seguintes configurações default:
-
Nome do esquema das tabelas métricas : O esquema Unity Catalog onde as tabelas métricas criadas pelo monitor são armazenadas. Esse local deve estar no formato {catálogo}. {esquema}. Em default, isso é definido como o mesmo local do esquema da tabela monitorada. Você pode especificar um local diferente.
-
diretório ativo : O caminho absoluto para um diretório existente para armazenar o monitoramento ativo. Em default, os ativos são armazenados no diretório default: "/Users/{user_name}/monitoramento/{table_name}". Se o senhor digitar um local diferente nesse campo, o ativo será criado em "/{table_name}" no diretório especificado. Esse diretório pode estar em qualquer lugar do site workspace. Para monitores destinados a serem compartilhados em uma organização, você pode usar um caminho no diretório " /Shared/ ".
Esse campo não pode ser deixado em branco.
Você também pode especificar as seguintes configurações:
- Unity Catalog nome da tabela de linha de base : Nome de uma tabela ou view que contém dados de linha de base para comparação.
- Expressões de divisão de métricas : As expressões de divisão permitem que o senhor defina subconjuntos da tabela a serem monitorados, além da tabela como um todo. Para criar uma expressão de fatiamento, clique em Adicionar expressão e insira a definição da expressão. Por exemplo, a expressão
"col_2 > 10"
gera duas fatias: uma paracol_2 > 10
e outra paracol_2 <= 10
. Como outro exemplo, a expressão"col_1"
gerará uma fatia para cada valor exclusivo emcol_1
. Os dados são agrupados por cada expressão de forma independente, resultando em uma fatia separada para cada predicado e seus complementos. - Métricas personalizadas : As métricas personalizadas aparecem nas tabelas de métricas como qualquer métrica integrada. Para configurar uma métrica personalizada, clique em Add custom métricas .
- Digite um nome para as métricas personalizadas.
- Selecione o tipo de métricas personalizadas. Escolha entre:
Aggregate
,Derived
ouDrift
. - Na lista suspensa em Colunas de entrada , selecione as colunas às quais aplicar as métricas.
- No campo Output type (Tipo de saída ), selecione o tipo de dados Spark das métricas.
- No campo Definition (Definição ), digite o código SQL que define as métricas personalizadas.
Edite as configurações do monitor na interface
Depois de criar um monitor, o senhor pode fazer alterações nas configurações do monitor clicando no botão Edit monitor configuration (Editar configuração do monitor ) no site Quality tab.
Atualizar e view monitorar os resultados na interface do usuário
Para executar o monitor manualmente, clique em atualizar métricas .
Para obter informações sobre as estatísticas armazenadas nas tabelas de monitoração métricas, consulte Tabelas de monitoração métricas. As tabelas métricas são tabelas do Unity Catalog. O senhor pode consultá-los no Notebook ou no explorador de consultas SQL e view no Catalog Explorer.
Controle o acesso às saídas do monitor
As tabelas de métricas e o painel criados por um monitor são de propriedade do usuário que criou o monitor. O senhor pode usar os privilégios do Unity Catalog para controlar o acesso às tabelas métricas. Para compartilhar painéis em um workspace, clique no botão Share (Compartilhar ) no canto superior direito do painel.
Excluir um monitor da interface
Para excluir um monitor da interface do usuário, clique no menu kebab ao lado do botão atualizar métricas e selecione Excluir monitor .