Pular para o conteúdo principal

Monitore o pipeline na interface do usuário.

Esta seção descreve o uso de recursos integrados de monitoramento e observabilidade para o pipeline declarativo LakeFlow Spark na interface do usuário Databricks . Esses recursos dão suporte a tarefas como:

Adicionar notificações email para eventos pipeline

Você pode configurar um ou mais endereços email para receber notificações quando ocorrer o seguinte:

  • Uma atualização de pipeline foi concluída com sucesso.
  • Uma atualização de pipeline falha, seja com um erro que pode ser repetido ou não. Selecione esta opção para receber uma notificação sobre todas as falhas do pipeline.
  • Uma atualização de pipeline falha com um erro não repetível (fatal). Selecione esta opção para receber uma notificação somente quando ocorrer um erro que não possa ser repetido.
  • Um único fluxo de dados falha.

Para configurar notificações email , edite as configurações de um pipeline. Veja Notificações.

nota

Crie respostas personalizadas para eventos, incluindo notificações ou tratamento personalizado, usando ganchos de eventos do Python.

Visualizando o pipeline na interface do usuário

Encontre seu pipeline a partir do ícone fluxo de trabalho. Opção "Tarefas e pipeline" na barra lateral workspace . Isso abre a página de Vagas e oportunidades , onde você pode view informações sobre cada vaga e pipeline à qual você tem acesso. Clique no nome de um pipeline para abrir a página de monitoramento pipeline . Para editar o trabalho ou pipeline, clique em Ícone do menu de kebab. menu e escolha Editar .

nota

Trabalhos e diferentes tipos de pipeline têm editores diferentes. A opção Editar abrirá o editor correto para o objeto selecionado.

Usando a lista de trabalhos e pipeline

Para view a lista de pipelines aos quais você tem acesso, clique em ícone fluxo de trabalho. Empregos e pipeline na barra lateral. A tab Jobs & pipeline lista informações sobre todos os Jobs e pipelines disponíveis, como o criador, o gatilho (se houver) e o resultado das últimas cinco execuções.

Clicar no nome de um pipeline ou trabalho leva você para a página de monitoramento desse pipeline ou trabalho. Para editar o pipeline ou o trabalho, clique no Ícone do menu de kebab. e selecione Editar .

Para alterar as colunas exibidas na lista, clique em Ícone de configurações de coluna e selecione ou desmarque colunas. Por exemplo, para adicionar Pipeline Type como uma coluna, selecione essa coluna para view.

Você pode filtrar Tarefas na lista Tarefas e pipeline, conforme mostrado na captura de tela a seguir.

view de lista de pipeline com chamadas.

  1. Pesquisa de texto : a pesquisa por palavra-chave é suportada para os campos Nome e ID . Para pesquisar uma tag criada com uma key e um valor, você pode pesquisar pela key, pelo valor ou pela key e pelo valor. Por exemplo, para uma tag com a key department e o valor finance, você pode pesquisar por department ou finance para encontrar o Job correspondente. Para pesquisar pela key e pelo valor, insira a key e o valor separados por dois pontos (por exemplo, department:finance).
  2. Tipo : filtrar por Jobs , pipeline ou All . Se você selecionar pipeline , também poderá filtrar por tipo de pipeline , que inclui ETL e pipeline de ingestão.
  3. Proprietário : mostre apenas o trabalho que você possui.
  4. Favoritos : mostra os trabalhos que você marcou como favoritos.
  5. tags : Use tags. Para pesquisar por tag, você pode usar o menu suspenso de tags para filtrar até cinco tags ao mesmo tempo ou usar diretamente a pesquisa por palavra-chave.
  6. execução como : Filtrar por até dois valores run as .

Para iniciar um Job ou um pipeline, clique no Ícone de reprodução botão de reprodução. Para interromper um trabalho ou um pipeline, clique em Ícone de parada botão de parada. Para acessar outras ações, clique no menu kebab Ícone do menu de kebab.. Por exemplo, você pode editar ou excluir o trabalho ou pipeline, ou acessar as configurações de um pipeline nesse menu.

Detalhes do pipeline disponíveis na página de monitoramento

nota

A visualização da Lista de execução unificada adiciona a execução pipeline à lista de execução do trabalho. Para obter detalhes sobre as alterações com essa visualização habilitada e como habilitá-la, consulte Quais são as alterações na visualização da Lista de execução unificada?.

Clicar no nome de um pipeline na página Trabalhos e pipeline mostra a página de monitoramento desse pipeline. A partir daqui você pode iniciar uma execução pipeline e view detalhes de execução anteriores.

O gráfico pipeline , também chamado de gráfico acíclico dirigido (DAG), aparece assim que uma atualização em um pipeline é iniciada com sucesso. As setas representam as dependências entre os conjuntos de dados em seu pipeline. Por default, a página de monitoramento pipeline exibe a atualização mais recente da tabela, mas você pode selecionar atualizações mais antigas em um menu suspenso.

O painel direito exibe os detalhes pipeline na parte superior, incluindo o ID pipeline , o custo compute , a edição do produto e o canal. Os detalhes da atualização aparecem abaixo dos detalhes do pipeline. Para acessar o código-fonte do pipeline, clique em Editar pipeline na parte superior da página. Para navegar até o código de uma tabela específica, passe o cursor sobre a tabela no gráfico do pipeline e clique.Ícone de código de arquivo. Navegue até o código .

Para view o conjunto de dados em formato de tabela, clique na tab Lista . A view em lista permite ver todos os conjuntos de dados em seu pipeline representados como uma linha em uma tabela e é útil quando o gráfico do seu pipeline é muito grande para ser visualizado na view gráfica . Você pode controlar o conjunto de dados exibido na tabela usando vários filtros, como nome dataset , tipo e status. Para voltar ao pipeline de gráficos, clique em gráfico .

O usuário execução é o proprietário pipeline , e pipeline atualiza a execução com as permissões deste usuário. Para alterar o usuário run as , clique em Permissões e altere o proprietário do pipeline.

nota

Comportamento de execução de atualizações : as atualizações acionadas por um programa, pela API do pipeline ou pelo pipeline contínuo usam o comportamento automático de repetição e reinicialização. As atualizações acionadas a partir da UI de monitoramento ou do editor pipeline utilizam comportamento de início rápido e focado em depuração. Para alterar o comportamento de uma execução específica, use a opção "Executar agora com configurações diferentes" no menu suspenso. Para obter mais informações, consulte Atualizar comportamento de execução.

logde eventos : Quando uma atualização pipeline apresenta erros, estes são exibidos no painel inferior, juntamente com um botão "Exibir logs para acessar o log de eventos daquela execução. O log de eventos também está disponível selecionando Ícone do modo leitor. Visualize logde eventos nos detalhes da execução, no painel direito. Ao executar uma atualização no Editor LakeFlow Pipelines , navegue até o painel Problemas na parte inferior do editor e clique em Exibir logs ou no botão Abrir em logs ao lado de qualquer erro. Para obter mais detalhes, consulte o EditorLakeFlow Pipelines e a configuração do pipeline para logde eventos.

Quais mudanças estão na visualização da Lista de execução unificada?

Se você tiver a visualização da Lista de execução unificada habilitada, poderá ver as atualizações de execução pipeline na página Trabalhos e pipeline .

info

Visualização

A lista de execução unificada está em Pré-visualização Pública. Os espaços de trabalho estão ativados na pré-visualização por default.

Para desativar a Lista de Execução Unificada , o administrador workspace deve optar por não participar da versão prévia. Para obter detalhes sobre como ativar ou desativar uma pré-visualização, consulte Gerenciar pré-visualizações em nível account.

Para acessar a lista de execução unificada, selecione Ícone de lista de verificação. execução na barra lateral workspace ou clique ícone fluxo de trabalho. Jobs & pipeline , então escolha a tab execução .

A tab mostra uma lista de execuções recentes dos últimos 60 dias. Um gráfico mostrando o sucesso e a falha da execução nas últimas 48 horas é exibido primeiro, nos seguintes casos:

  • Você é filtrado apenas para Jobs ou pipeline .
  • Você é um administrador ou filtra apenas para execução Run as: Me
  • a execução pode levar até uma hora para aparecer no gráfico.

Você pode filtrar a lista e o gráfico por:

  • Nome do trabalho ou pipeline.
  • Todos , Trabalhos ou pipeline .
  • Tipo de pipeline (ETL, ingestão, MV/ST ou sincronização de tabela de banco de dados).
  • A execução como usuário.
  • A hora de início da execução (nas últimas 48 horas).
  • O status de execução .
  • O código de erro para execução com falha.

Além do acima, você pode view as seguintes colunas na lista:

  • Hora de conclusão
  • ID da execução
  • Se a execução foi iniciada manualmente ou por um programador.
  • execução duração .
  • Parâmetros de execução .

Para alterar as colunas exibidas na lista de execução, clique em Ícone de colunas. e selecione ou desmarque colunas.

Clicar em hora de início , hora de término ou nome de uma execução pipeline leva você para a página de monitoramento do pipeline.

Quando um pipeline estiver em execução ativa, você pode interromper a execução clicando no Ícone de parada. botão de parada. A qualquer momento, você também pode clicar Ícone do menu de kebab. botão de menu na linha da execução e escolha Editar pipeline para view o pipeline no editor.

Como você pode view detalhes dataset ?

Clicar em um dataset no gráfico pipeline ou na lista dataset exibe informações sobre o dataset no painel inferior. O painel direito continua a exibir os detalhes do pipeline e da atualização.

  • Esquema : Escolha a tabela na tab Tabelas do painel inferior e, em seguida, selecione Colunas .
  • Métricas de qualidade de dados : visualizáveis no painel inferior quando uma tabela é selecionada.
  • Código-fonte : Para navegar até o código de uma tabela específica, passe o cursor sobre a tabela no gráfico do pipeline e clique em Ícone de código de arquivo. Navegue até o botão de código .
  • Consulta história : Escolha desempenho no painel inferior.
  • Comentários da tabela : Os comentários da tabela não estão disponíveis na página de detalhes do pipeline. Para view os comentários da tabela, abra a tabela no Explorador de Catálogo. Para navegar diretamente até a tabela, passe o cursor sobre ela no gráfico pipeline e clique.Ícone do menu de kebab., depois clique Ícone de dados. Ver no catálogo . Para acessar o Explorador de Catálogo a partir da lista de tabelas no painel inferior, clique em Ícone de dados. ícone.

ver histórico de atualização

Para view o histórico e o status das atualizações pipeline , clique no menu suspenso histórico de atualizações na barra superior.

Selecione a atualização no menu suspenso para view o gráfico, os detalhes e os eventos de uma atualização. Para retornar à atualização mais recente, clique em Mostrar a atualização mais recente .

ver métricas de transmissão

info

Visualização

A observabilidade de transmissão para o pipeline está em Pré-visualização Pública.

Você pode view as métricas de transmissão da fonte de dados suportada pelo Spark transmissão estruturada, como Apache Kafka, Amazon Kinesis, Auto Loader e tabelas Delta , para cada fluxo de transmissão em seu pipeline. As métricas são exibidas como gráficos no painel direito da interface do usuário do pipeline e incluem segundos de backlog, bytes de backlog, registros de backlog e arquivos de backlog. Os gráficos exibem o valor máximo agregado por minuto e uma dica de ferramenta mostra os valores máximos quando você passa o cursor sobre o gráfico. Os dados estão limitados às últimas 48 horas a partir do momento atual.

As tabelas em seu pipeline com métricas de transmissão disponíveis exibem o Ícone do gráfico LDP Ícone exibido ao visualizar o gráfico pipeline na view gráfica da interface do usuário. Para view as medições de transmissão, clique no botão Ícone do gráfico LDP Para exibir o gráfico de transmissão de métricas na tab Fluxos , no painel direito. Você também pode aplicar um filtro para view apenas as tabelas com métricas de transmissão clicando em Lista e, em seguida, em Possui métricas de transmissão .

Cada fonte de transmissão suporta apenas métricas específicas. métricas não suportadas por uma fonte de transmissão não estão disponíveis para view na interface do usuário. A tabela a seguir mostra as métricas disponíveis para fontes de transmissão suportadas:

Origem

bytes de backlog

registros de pendências

segundos de atraso

arquivos de pendências

Kafka

Kinesis

Delta

Carregador automático

Google Pub/Sub