Pular para o conteúdo principal

Monitorar o pipeline declarativo LakeFlow na IU

Esta seção descreve o uso do recurso de monitoramento e observabilidade integrados para o pipeline declarativo LakeFlow na interface do usuário Databricks . Esses recursos oferecem suporte a tarefas como:

Adicionar notificações email para eventos pipeline

Você pode configurar um ou mais endereços email para receber notificações quando ocorrer o seguinte:

  • Uma atualização de pipeline foi concluída com sucesso.
  • Uma atualização de pipeline falha, seja com um erro que pode ser repetido ou não. Selecione esta opção para receber uma notificação sobre todas as falhas do pipeline.
  • Uma atualização de pipeline falha com um erro não repetível (fatal). Selecione esta opção para receber uma notificação somente quando ocorrer um erro que não possa ser repetido.
  • Um único fluxo de dados falha.

Para configurar notificações email , edite as configurações de um pipeline. Veja Notificações.

nota

Crie respostas personalizadas para eventos, incluindo notificações ou tratamento personalizado, usando ganchos de eventos do Python.

Visualizando o pipeline na interface do usuário

Encontre seu pipeline declarativo LakeFlow em ícone fluxo de trabalho. Opção de trabalhos e pipeline na barra lateral workspace . Isso abre a página Jobs e pipeline , onde você pode view informações sobre cada Job e pipeline aos quais você tem acesso. Clique no nome de um pipeline para abrir a página de monitoramento do pipeline. Para editar o trabalho ou pipeline, clique em Ícone do menu de kebab. menu e escolha Editar .

nota

Trabalhos e diferentes tipos de pipeline têm editores diferentes. A opção Editar abrirá o editor correto para o objeto selecionado.

Usando a lista de trabalhos e pipeline

Para view a lista de pipelines aos quais você tem acesso, clique em ícone fluxo de trabalho. Empregos e pipeline na barra lateral. A tab Jobs & pipeline lista informações sobre todos os Jobs e pipelines disponíveis, como o criador, o gatilho (se houver) e o resultado das últimas cinco execuções.

Clicar no nome de um pipeline ou trabalho leva você para a página de monitoramento desse pipeline ou trabalho. Para editar o pipeline ou o trabalho, clique no Ícone do menu de kebab. e selecione Editar .

Para alterar as colunas exibidas na lista, clique em Ícone de configurações de coluna e selecione ou desmarque colunas. Por exemplo, para adicionar Pipeline Type como uma coluna, selecione essa coluna para view.

Você pode filtrar Tarefas na lista Tarefas e pipeline, conforme mostrado na captura de tela a seguir.

view de lista de pipeline com chamadas.

  1. Pesquisa de texto : a pesquisa por palavra-chave é suportada para os campos Nome e ID . Para pesquisar uma tag criada com uma key e um valor, você pode pesquisar pela key, pelo valor ou pela key e pelo valor. Por exemplo, para uma tag com a key department e o valor finance, você pode pesquisar por department ou finance para encontrar o Job correspondente. Para pesquisar pela key e pelo valor, insira a key e o valor separados por dois pontos (por exemplo, department:finance).
  2. Tipo : filtrar por Jobs , pipeline ou All . Se você selecionar pipeline , também poderá filtrar por tipo de pipeline , que inclui ETL e pipeline de ingestão.
  3. Proprietário : mostre apenas o trabalho que você possui.
  4. Favoritos : mostra os trabalhos que você marcou como favoritos.
  5. tags : Use tags. Para pesquisar por tag, você pode usar o menu suspenso de tags para filtrar até cinco tags ao mesmo tempo ou usar diretamente a pesquisa por palavra-chave.
  6. execução como : Filtrar por até dois valores run as .

Para iniciar um Job ou um pipeline, clique no Ícone de reprodução botão de reprodução. Para interromper um trabalho ou um pipeline, clique em Ícone de parada botão de parada. Para acessar outras ações, clique no menu kebab Ícone do menu de kebab.. Por exemplo, você pode editar ou excluir o trabalho ou pipeline, ou acessar as configurações de um pipeline nesse menu.

Detalhes do pipeline disponíveis na página de monitoramento

nota

O LakeFlow Pipelines Editor muda a experiência dos detalhes pipeline . Se você optar pela visualização, as informações serão exibidas em uma interface de usuário diferente da descrita aqui. Para obter detalhes sobre essa interface, consulte a próxima seção.

Clicar no nome de um pipeline na página Trabalhos e pipeline mostra a página de monitoramento desse pipeline. A partir daqui você pode iniciar uma execução pipeline e view detalhes de execução anteriores.

O gráfico pipeline (também chamado de DAG) aparece assim que uma atualização de um pipeline é iniciada com sucesso. As setas representam dependências entre conjuntos de dados no seu pipeline. Por default, a página de monitoramento pipeline mostra a atualização mais recente da tabela, mas você pode selecionar atualizações mais antigas em um menu suspenso.

Os detalhes incluem o ID pipeline , o código-fonte, o custo compute , a edição do produto e o canal configurado para o pipeline.

Para ver uma view tabular do conjunto de dados, clique na tab Lista . A view de lista permite que você veja todos os conjuntos de dados no seu pipeline representados como uma linha em uma tabela e é útil quando o gráfico do seu pipeline é muito grande para ser visualizado na view gráfica . Você pode controlar o conjunto de dados exibido na tabela usando vários filtros, como nome, tipo e status dataset . Para retornar à visualização do DAG, clique em gráfico .

O usuário execução é o proprietário pipeline , e pipeline atualiza a execução com as permissões deste usuário. Para alterar o usuário run as , clique em Permissões e altere o proprietário do pipeline.

Quais são as mudanças no Editor LakeFlow Pipelines ?

Se você tiver optado pela visualização do LakeFlow Pipelines Editor e pela nova interface de monitoramento pipeline , algumas informações estarão em locais diferentes na interface. Para obter informações sobre o LakeFlow Pipelines Editor e optar por ambas as visualizações, consulte Habilitar o LakeFlow Pipelines Editor e monitoramento atualizado.

info

Visualização

Este recurso está em Visualização Pública.

As seguintes alterações no monitoramento com a página de monitoramento do pipeline aparecem quando você ativa ambas as visualizações:

  • Os detalhes do pipeline e a guia Detalhes da atualização no painel direito foram mesclados com os detalhes pipeline na parte superior, seguidos pelos detalhes da atualização.

  • Clicar em uma tabela no gráfico não mostra os detalhes da tabela no painel direito. O painel direito continua mostrando o pipeline e os detalhes da atualização. Em vez disso, o painel inferior mostra as informações da tabela.

  • As regras para executar um pipeline no modo de desenvolvimento foram ligeiramente atualizadas. Para informações sobre modo de desenvolvimento, veja Modo de desenvolvimento.

    • A execução de um pipeline por meio de um programa ou gatilho segue a configuração pipeline para usar ou não o modo de desenvolvimento. Você pode alterar o default de um pipeline nas configurações do pipeline .
    • Executar um pipeline pela interface de monitoramento usará o modo definido nas configurações do pipeline. Você pode escolher se deseja usar o modo de desenvolvimento usando a opção execução com configurações diferentes no menu suspenso.
    • Executar um pipeline a partir do editor pipeline default . Você pode optar por não usar o modo de desenvolvimento usando a opção execução com configurações diferentes no menu suspenso.
  • Não há mais um link para o código-fonte nos detalhes do pipeline. Em vez disso, escolha Editar pipeline na parte superior. Para pular para o código de uma tabela específica, passe o mouse sobre a tabela no DAG e clique no Ícone de código de arquivo. Navegue até o botão de código .

  • O log de eventos não é mais exibido por default em cada atualização da página de monitoramento pipeline . Quando ocorre um erro durante o processamento, os erros são exibidos no painel inferior, e um botão de visualização logs é exibido para view o log de eventos dessa execução. O log de eventos também está disponível selecionando Ícone do modo leitor. visualizar logde eventos nos detalhes de execução no painel direito.

    Para acessar o log de eventos ao executar uma atualização no novo Editor LakeFlow Pipelines , navegue até o painel Problemas e percepções na parte inferior do editor, clique em visualizar logs ou no botão Abrir em logs ao lado de qualquer erro. Para mais detalhes, consulte LakeFlow Pipelines Editor e a configuração do pipeline para logde eventos.

  • As informações do esquema da tabela estão disponíveis escolhendo a tabela na tab Tabelas do painel inferior e, em seguida, selecionando Colunas .

  • A consulta história está disponível escolhendo desempenho no painel inferior.

  • Os comentários da tabela não estão disponíveis na página de detalhes do pipeline. Para ver os comentários da tabela, view a tabela no Catalog Explorer. Para pular diretamente para a tabela no Catalog Explorer, passe o mouse sobre a tabela no DAG e clique no Ícone do menu de kebab., e então Ícone de dados. ver no catálogo . Você também pode acessar as informações no Explorador de catálogos a partir da lista de tabelas no painel inferior clicando no Ícone de dados. ícone.

Como você pode view detalhes dataset ?

Clicar em um dataset no gráfico pipeline ou na lista dataset mostra detalhes sobre o dataset. Os detalhes incluem o esquema dataset , métricas de qualidade de dados e um link para o código-fonte que define o dataset.

ver histórico de atualização

Para view o histórico e o status das atualizações pipeline , clique no menu suspenso histórico de atualizações na barra superior.

Selecione a atualização no menu suspenso para view o gráfico, os detalhes e os eventos de uma atualização. Para retornar à atualização mais recente, clique em Mostrar a atualização mais recente .

ver métricas de transmissão

info

Visualização

A observabilidade de transmissão para o pipeline declarativo LakeFlow está em visualização pública.

Você pode view as métricas de transmissão da fonte de dados suportada pelo Spark transmissão estruturada, como Apache Kafka, Amazon Kinesis, Auto Loader e tabelas Delta , para cada fluxo de transmissão em seu pipeline declarativo LakeFlow . As métricas são exibidas como gráficos no painel direito da interface do usuário do pipeline declarativo LakeFlow e incluem segundos de backlog, bytes de backlog, registros de backlog e arquivos de backlog. Os gráficos exibem o valor máximo agregado por minuto e uma dica de ferramenta mostra os valores máximos quando você passa o mouse sobre o gráfico. Os dados são limitados às últimas 48 horas a partir do momento atual.

As tabelas em seu pipeline com métricas de transmissão disponíveis exibem Ícone do gráfico LDP ícone ao visualizar o DAG pipeline na view gráfica da IU. Para view as transmissões, clique no botão Ícone do gráfico LDP para exibir o gráfico de métricas de transmissão na tab Fluxos no painel direito. Você também pode aplicar um filtro para view apenas tabelas com métricas de transmissão clicando em Listar e depois clicando em Possui métricas de transmissão .

Cada fonte de transmissão suporta apenas métricas específicas. métricas não suportadas por uma fonte de transmissão não estão disponíveis para view na interface do usuário. A tabela a seguir mostra as métricas disponíveis para fontes de transmissão suportadas:

Origem

bytes de backlog

registros de pendências

segundos de atraso

arquivos de pendências

Kafka

Kinesis

Delta

Carregador automático

Google Pub/Sub