Pular para o conteúdo principal

Crie um perfil usando a interface do usuário do Databricks.

Este artigo demonstra a criação de um perfil de dados usando a UI Databricks . Você também pode usar a API.

Para acessar a interface do usuário do Databricks, faça o seguinte:

  1. Na barra lateral esquerda workspace , clique em Ícone de dados. Para abrir o Explorador de Catálogo.

  2. Navegue até a tabela que deseja analisar.

  3. Clique na tab Qualidade .

  4. Se a detecção de anomalia não estiver ativada para este esquema, clique em Ativar .

    tab de qualidade do perfil de dados ainda não está habilitada.

    Se a detecção de anomalia estiver habilitada para este esquema, clique em Configurar .

    tab perfil de qualidade de dados, já habilitada.

  5. Na caixa de diálogo Monitoramento de qualidade de dados , no campo perfil de dados , clique em Configurar .

    Diálogo de monitoramento da qualidade dos dados.

  6. Na caixa de diálogo, selecione o tipo de perfil . As seções a seguir descrevem as opções de tipo de perfil e as seleções adicionais para cada tipo.

Criação de perfis

No menu suspenso Tipo de perfil , selecione o tipo de perfil que deseja criar. Os tipos de perfil são apresentados na tabela.

Tipo de perfil

Descrição

Perfil de série temporal

Uma tabela contendo valores medidos ao longo do tempo. Esta tabela inclui uma coluna de registro de data e hora.

Perfil de snapshot

Qualquer tabela Delta gerencial, tabela externa, view, view materializada ou tabela de transmissão.

Perfil de inferência

Uma tabela contendo os valores previstos gerados por um modelo de classificação ou regressão machine learning . Esta tabela inclui um registro de data e hora, um ID do modelo, entradas do modelo (recurso), uma coluna contendo previsões do modelo e colunas opcionais contendo IDs de observação exclusivos e rótulos de verdade fundamental. Também pode conter metadados, como informações demográficas, que não são usadas como entrada para o modelo, mas podem ser úteis para investigações de imparcialidade e viés ou outras tarefas.

Se você selecionar TimeSeries ou Inference, parâmetros adicionais serão necessários e serão descritos nas seções seguintes.

nota
  • Ao criar uma série temporal ou um perfil de inferência pela primeira vez, o perfil analisa apenas os dados dos 30 dias anteriores à sua criação. Após a criação do perfil, todos os novos dados são processados.
  • Os monitores definidos na visão materializada não suportam processamento incremental.
dica

Para perfis TimeSeries e Inference , é uma boa prática habilitar o feed de dados de alteração (CDF) em sua tabela. Quando o CDF está ativado, apenas os dados adicionados recentemente são processados, em vez de reprocessar a tabela inteira a cada refresh. Isso torna a execução mais eficiente e reduz os custos à medida que você amplia a criação de perfis em várias tabelas.

TimeSeries perfil

Para um perfil TimeSeries , você deve fazer as seguintes seleções:

  • Especifique as granularidades das métricas que determinam como particionar os dados em janelas ao longo do tempo.
  • Especifique a coluna Timestamp , a coluna na tabela que contém o registro de data e hora. O tipo de dados da coluna de carimbo de data/hora deve ser TIMESTAMP ou um tipo que possa ser convertido em carimbos de data/hora usando a função to_timestamp do PySpark.

Inference perfil

Para um perfil Inference , além das granularidades e do carimbo de data/hora, você deve fazer as seguintes seleções:

  • Selecione o tipo de problema : classificação ou regressão.
  • Especifique a coluna "Previsão" , a coluna que contém os valores previstos pelo modelo.
  • Opcionalmente, especifique a coluna rótulo , a coluna que contém os valores reais (ground truth) para as previsões do modelo.
  • Especifique a coluna ID do Modelo , que contém o ID do modelo usado para a previsão.

Opções avançadas

Na seção Opções avançadas , você pode configurar o programador, adicionar notificações email , adicionar métricas personalizadas e expressões de segmentação, além de alterar a configuração default do perfil.

programar

Para configurar um perfil para execução programada, selecione "Atualizar" no programador e escolha a frequência e o horário de execução do perfil. Se não desejar que o perfil seja executado automaticamente, selecione atualizar manualmente . Se você selecionar a opção de atualização manual , poderá refresh os itens posteriormente na tab Qualidade .

Notificações

Para configurar notificações email para um perfil, insira o email que deseja notificar e selecione as notificações que deseja ativar. É possível enviar até 5 e-mails por tipo de evento de notificação.

meias

Na seção métricas , você pode optar por alterar as seguintes configurações default :

  • Nome do esquema das tabelas métricas : O esquema Unity Catalog onde as tabelas métricas criadas pelo perfil são armazenadas. Este local deve estar no formato {catalog}.{schema}. Por default, isso é definido para o mesmo local do esquema que a tabela perfilada. Você pode especificar um local diferente.

  • diretório ativo : O caminho absoluto para um diretório existente para armazenar o perfil de dados ativos. Por default, os ativos são armazenados no diretório default : "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}". Se você inserir um local diferente neste campo, os ativos serão criados em "/{table_name}" no diretório especificado. Este diretório pode estar em qualquer lugar no workspace. Para perfis que se destinam a ser compartilhados dentro de uma organização, você pode usar um caminho no diretório "/Shared/".

    Este campo não pode ser deixado em branco.

Você também pode especificar as seguintes configurações:

  • Nome da tabela de referênciaUnity Catalog : Nome de uma tabela ou view que contém dados de referência para comparação.
  • Expressões de segmentação de métricas : As expressões de segmentação permitem definir subconjuntos da tabela para serem analisados, além da tabela como um todo. Para criar uma expressão de fatiamento, clique em Adicionar expressão e insira a definição da expressão. Por exemplo, a expressão "col_2 > 10" gera duas fatias: uma para col_2 > 10 e outra para col_2 <= 10. Como outro exemplo, a expressão "col_1" irá gerar uma fatia para cada valor único em col_1. Os dados são agrupados por expressão de forma independente, resultando em uma fatia separada para cada predicado e seus complementos.
  • Métricas personalizadas : As métricas personalizadas aparecem nas tabelas de métricas como quaisquer métricas integradas. Para configurar métricas personalizadas, clique em Adicionar métricas personalizadas .
    • Insira um Nome para as métricas personalizadas.
    • Selecione o tipo de gráfico personalizado. Escolha entre: Aggregate, Derived ou Drift.
    • Na lista suspensa em Colunas de entrada , selecione as colunas às quais deseja aplicar os modelos.
    • No campo Tipo de saída , selecione o tipo de dados Spark dos métricas.
    • No campo Definição , insira o código SQL que define as métricas personalizadas.

Editar configurações de perfil na interface do usuário

Após criar um perfil, você pode alterar as configurações do perfil clicando em Configurar na tab Qualidade .

Configure um perfil existente.

Na seção perfil de dados da caixa de diálogo, clique em Configurar .

Diálogo de atualização de perfil.

Atualize e view os resultados do perfil na interface do usuário.

Para executar o perfil manualmente, clique em visualizar refresh história . Uma caixa de diálogo é aberta, exibindo todos os perfis anteriores. Clique em Atualizar métricas para acionar uma atualização de perfil.

Para informações sobre as estatísticas que ficam armazenadas nas tabelas de métricas de perfil, consulte Monitorar tabelas de métricas. As tabelas métricas são tabelas Unity Catalog . Você pode consultá-los no Notebook ou no explorador de consultas SQL e view -los no Explorador de Catálogo.

Controlar o acesso às saídas do perfil

As tabelas de métricas e o painel de controle criados por um perfil pertencem ao usuário que criou o perfil. Você pode usar os privilégios Unity Catalog para controlar o acesso às tabelas de instrumentos. Para compartilhar painéis dentro de um workspace, clique no botão Compartilhar no canto superior direito do painel.

Excluir um perfil da interface do usuário

Para excluir um perfil da interface do usuário, siga as instruções em Editar configurações de perfil na interface do usuário para abrir a caixa de diálogo Atualizar perfil . No menu dropdown Atualizar , selecione Excluir .

Excluir um perfil.