Monitorar o pipeline declarativo LakeFlow na IU
Esta seção descreve o uso do recurso de monitoramento e observabilidade integrados para o pipeline declarativo LakeFlow na interface do usuário Databricks . Esses recursos oferecem suporte a tarefas como:
- Observar o progresso e o status das atualizações do pipeline. Veja detalhes do pipeline disponíveis na página de monitoramento.
- Alertas sobre eventos de pipeline, como sucesso ou falha de atualizações de pipeline. Consulte Adicionar notificações email para eventos pipeline.
- Visualizando métricas para fontes de transmissão como Apache Kafka e Auto Loader (Public Preview). Veja a visualização das medições de transmissão.
Adicionar notificações email para eventos pipeline
Você pode configurar um ou mais endereços email para receber notificações quando ocorrer o seguinte:
- Uma atualização de pipeline foi concluída com sucesso.
- Uma atualização de pipeline falha, seja com um erro que pode ser repetido ou não. Selecione esta opção para receber uma notificação sobre todas as falhas do pipeline.
- Uma atualização de pipeline falha com um erro não repetível (fatal). Selecione esta opção para receber uma notificação somente quando ocorrer um erro que não possa ser repetido.
- Um único fluxo de dados falha.
Para configurar notificações email , edite as configurações de um pipeline. Veja Notificações.
Crie respostas personalizadas para eventos, incluindo notificações ou tratamento personalizado, usando ganchos de eventos do Python.
Visualizando o pipeline na interface do usuário
Encontre seu pipeline declarativo LakeFlow em Opção de trabalhos e pipeline na barra lateral workspace . Isso abre a página Jobs e pipeline , onde você pode view informações sobre cada Job e pipeline aos quais você tem acesso. Clique no nome de um pipeline para abrir a página de monitoramento do pipeline. Para editar o trabalho ou pipeline, clique em
menu e escolha Editar .
Trabalhos e diferentes tipos de pipeline têm editores diferentes. A opção Editar abrirá o editor correto para o objeto selecionado.
Usando a lista de trabalhos e pipeline
Para view a lista de pipelines aos quais você tem acesso, clique em Empregos e pipeline na barra lateral. A tab Jobs & pipeline lista informações sobre todos os Jobs e pipelines disponíveis, como o criador, o gatilho (se houver) e o resultado das últimas cinco execuções.
Clicar no nome de um pipeline ou trabalho leva você para a página de monitoramento desse pipeline ou trabalho. Para editar o pipeline ou o trabalho, clique no e selecione Editar .
Para alterar as colunas exibidas na lista, clique em e selecione ou desmarque colunas. Por exemplo, para adicionar
Pipeline Type
como uma coluna, selecione essa coluna para view.
Você pode filtrar Tarefas na lista Tarefas e pipeline, conforme mostrado na captura de tela a seguir.
- Pesquisa de texto : a pesquisa por palavra-chave é suportada para os campos Nome e ID . Para pesquisar uma tag criada com uma key e um valor, você pode pesquisar pela key, pelo valor ou pela key e pelo valor. Por exemplo, para uma tag com a key
department
e o valorfinance
, você pode pesquisar pordepartment
oufinance
para encontrar o Job correspondente. Para pesquisar pela key e pelo valor, insira a key e o valor separados por dois pontos (por exemplo,department:finance
). - Tipo : filtrar por Jobs , pipeline ou All . Se você selecionar pipeline , também poderá filtrar por tipo de pipeline , que inclui ETL e pipeline de ingestão.
- Proprietário : mostre apenas o trabalho que você possui.
- Favoritos : mostra os trabalhos que você marcou como favoritos.
- tags : Use tags. Para pesquisar por tag, você pode usar o menu suspenso de tags para filtrar até cinco tags ao mesmo tempo ou usar diretamente a pesquisa por palavra-chave.
- execução como : Filtrar por até dois valores
run as
.
Para iniciar um Job ou um pipeline, clique no botão de reprodução. Para interromper um trabalho ou um pipeline, clique em
botão de parada. Para acessar outras ações, clique no menu kebab
. Por exemplo, você pode editar ou excluir o trabalho ou pipeline, ou acessar as configurações de um pipeline nesse menu.
Detalhes do pipeline disponíveis na página de monitoramento
O LakeFlow Pipelines Editor muda a experiência dos detalhes pipeline . Se você optar pela visualização, as informações serão exibidas em uma interface de usuário diferente da descrita aqui. Para obter detalhes sobre essa interface, consulte a próxima seção.
Clicar no nome de um pipeline na página Trabalhos e pipeline mostra a página de monitoramento desse pipeline. A partir daqui você pode iniciar uma execução pipeline e view detalhes de execução anteriores.
O gráfico pipeline (também chamado de DAG) aparece assim que uma atualização de um pipeline é iniciada com sucesso. As setas representam dependências entre conjuntos de dados no seu pipeline. Por default, a página de monitoramento pipeline mostra a atualização mais recente da tabela, mas você pode selecionar atualizações mais antigas em um menu suspenso.
Os detalhes incluem o ID pipeline , o código-fonte, o custo compute , a edição do produto e o canal configurado para o pipeline.
Para ver uma view tabular do conjunto de dados, clique na tab Lista . A view de lista permite que você veja todos os conjuntos de dados no seu pipeline representados como uma linha em uma tabela e é útil quando o gráfico do seu pipeline é muito grande para ser visualizado na view gráfica . Você pode controlar o conjunto de dados exibido na tabela usando vários filtros, como nome, tipo e status dataset . Para retornar à visualização do DAG, clique em gráfico .
O usuário execução é o proprietário pipeline , e pipeline atualiza a execução com as permissões deste usuário. Para alterar o usuário run as
, clique em Permissões e altere o proprietário do pipeline.
Quais são as mudanças no Editor LakeFlow Pipelines ?
Se você tiver optado pela visualização do LakeFlow Pipelines Editor e pela nova interface de monitoramento pipeline , algumas informações estarão em locais diferentes na interface. Para obter informações sobre o LakeFlow Pipelines Editor e optar por ambas as visualizações, consulte Habilitar o LakeFlow Pipelines Editor e monitoramento atualizado.
Visualização
Este recurso está em Visualização Pública.
As seguintes alterações no monitoramento com a página de monitoramento do pipeline aparecem quando você ativa ambas as visualizações:
-
Os detalhes do pipeline e a guia Detalhes da atualização no painel direito foram mesclados com os detalhes pipeline na parte superior, seguidos pelos detalhes da atualização.
-
Clicar em uma tabela no gráfico não mostra os detalhes da tabela no painel direito. O painel direito continua mostrando o pipeline e os detalhes da atualização. Em vez disso, o painel inferior mostra as informações da tabela.
-
As regras para executar um pipeline no modo de desenvolvimento foram ligeiramente atualizadas. Para informações sobre modo de desenvolvimento, veja Modo de desenvolvimento.
- A execução de um pipeline por meio de um programa ou gatilho segue a configuração pipeline para usar ou não o modo de desenvolvimento. Você pode alterar o default de um pipeline nas configurações do pipeline .
- Executar um pipeline pela interface de monitoramento usará o modo definido nas configurações do pipeline. Você pode escolher se deseja usar o modo de desenvolvimento usando a opção execução com configurações diferentes no menu suspenso.
- Executar um pipeline a partir do editor pipeline default . Você pode optar por não usar o modo de desenvolvimento usando a opção execução com configurações diferentes no menu suspenso.
-
Não há mais um link para o código-fonte nos detalhes do pipeline. Em vez disso, escolha Editar pipeline na parte superior. Para pular para o código de uma tabela específica, passe o mouse sobre a tabela no DAG e clique no
Navegue até o botão de código .
-
O log de eventos não é mais exibido por default em cada atualização da página de monitoramento pipeline . Quando ocorre um erro durante o processamento, os erros são exibidos no painel inferior, e um botão de visualização logs é exibido para view o log de eventos dessa execução. O log de eventos também está disponível selecionando
visualizar logde eventos nos detalhes de execução no painel direito.
Para acessar o log de eventos ao executar uma atualização no novo Editor LakeFlow Pipelines , navegue até o painel Problemas e percepções na parte inferior do editor, clique em visualizar logs ou no botão Abrir em logs ao lado de qualquer erro. Para mais detalhes, consulte LakeFlow Pipelines Editor e a configuração do pipeline para logde eventos.
-
As informações do esquema da tabela estão disponíveis escolhendo a tabela na tab Tabelas do painel inferior e, em seguida, selecionando Colunas .
-
A consulta história está disponível escolhendo desempenho no painel inferior.
-
Os comentários da tabela não estão disponíveis na página de detalhes do pipeline. Para ver os comentários da tabela, view a tabela no Catalog Explorer. Para pular diretamente para a tabela no Catalog Explorer, passe o mouse sobre a tabela no DAG e clique no
, e então
ver no catálogo . Você também pode acessar as informações no Explorador de catálogos a partir da lista de tabelas no painel inferior clicando no
ícone.
Como você pode view detalhes dataset ?
Clicar em um dataset no gráfico pipeline ou na lista dataset mostra detalhes sobre o dataset. Os detalhes incluem o esquema dataset , métricas de qualidade de dados e um link para o código-fonte que define o dataset.
ver histórico de atualização
Para view o histórico e o status das atualizações pipeline , clique no menu suspenso histórico de atualizações na barra superior.
Selecione a atualização no menu suspenso para view o gráfico, os detalhes e os eventos de uma atualização. Para retornar à atualização mais recente, clique em Mostrar a atualização mais recente .
ver métricas de transmissão
Visualização
A observabilidade de transmissão para o pipeline declarativo LakeFlow está em visualização pública.
Você pode view as métricas de transmissão da fonte de dados suportada pelo Spark transmissão estruturada, como Apache Kafka, Amazon Kinesis, Auto Loader e tabelas Delta , para cada fluxo de transmissão em seu pipeline declarativo LakeFlow . As métricas são exibidas como gráficos no painel direito da interface do usuário do pipeline declarativo LakeFlow e incluem segundos de backlog, bytes de backlog, registros de backlog e arquivos de backlog. Os gráficos exibem o valor máximo agregado por minuto e uma dica de ferramenta mostra os valores máximos quando você passa o mouse sobre o gráfico. Os dados são limitados às últimas 48 horas a partir do momento atual.
As tabelas em seu pipeline com métricas de transmissão disponíveis exibem ícone ao visualizar o DAG pipeline na view gráfica da IU. Para view as transmissões, clique no botão
para exibir o gráfico de métricas de transmissão na tab Fluxos no painel direito. Você também pode aplicar um filtro para view apenas tabelas com métricas de transmissão clicando em Listar e depois clicando em Possui métricas de transmissão .
Cada fonte de transmissão suporta apenas métricas específicas. métricas não suportadas por uma fonte de transmissão não estão disponíveis para view na interface do usuário. A tabela a seguir mostra as métricas disponíveis para fontes de transmissão suportadas:
Origem | bytes de backlog | registros de pendências | segundos de atraso | arquivos de pendências |
---|---|---|---|---|
Kafka | ✓ | ✓ | ||
Kinesis | ✓ | ✓ | ||
Delta | ✓ | ✓ | ||
Carregador automático | ✓ | ✓ | ||
Google Pub/Sub | ✓ | ✓ |