Pular para o conteúdo principal

Desenvolver e depurar pipeline ETL com um Notebook no pipeline declarativo LakeFlow

info

Visualização

Este recurso está em Visualização Pública.

Este artigo descreve como usar um Notebook no pipeline declarativo LakeFlow para desenvolver e depurar o pipeline ETL .

nota

Esta página descreve a experiência de edição do antigo Notebook. A experiência default recomendada é o LakeFlow Pipelines Editor. Você pode usar o LakeFlow Pipelines Editor para editar arquivos de código do Notebook, Python ou SQL para um pipeline. Para obter mais informações, consulte Desenvolver e depurar pipeline ETL com o LakeFlow Pipelines Editor.

Para configurar a experiência do Notebook descrita nesta página, você deve desativar o Editor LakeFlow Pipelines . Consulte Habilitar o Editor LakeFlow Pipelines e monitoramento atualizado.

Visão geral do Notebook no pipeline declarativo LakeFlow

Ao trabalhar em um Python ou SQL Notebook configurado como código-fonte para um pipeline existente, você pode conectar o Notebook diretamente ao pipeline. Quando o Notebook está conectado ao pipeline, os seguintes recursos estão disponíveis:

  • iniciar e validar o pipeline do Notebook.
  • visualize o gráfico de fluxo de dados e log eventos do pipeline para obter a atualização mais recente no Notebook.
  • visualizar diagnósticos pipeline no editor do Notebook.
  • visualizar o status do cluster do pipeline no Notebook.
  • Acesse a interface do pipeline declarativo LakeFlow no Notebook.

Pré-requisitos

  • Você deve ter um pipeline existente com um Python ou SQL Notebook configurado como código-fonte.
  • Você deve ser o proprietário do pipeline ou ter o privilégio CAN_MANAGE .

Limitações

  • Os recursos abordados neste artigo estão disponíveis apenas no Databricks Notebook. arquivos de espaço de trabalho não são suportados.
  • O terminal web não está disponível quando conectado a um pipeline. Como resultado, ele não fica visível como uma tab no painel inferior.

Conectar um notebook a um pipeline

Dentro do Notebook, clique no menu suspenso usado para selecionar compute. O menu suspenso mostra todo o seu pipeline declarativo LakeFlow com este Notebook como código-fonte. Para conectar o Notebook a um pipeline, selecione-o na lista.

visualizar o status do cluster do pipeline

Para entender facilmente o estado do cluster do seu pipeline, seu status é mostrado no menu suspenso de compute com uma cor verde para indicar que o cluster está em execução.

Validar código do pipeline

Você pode validar o pipeline para verificar erros de sintaxe no seu código-fonte sem processar nenhum dado.

Para validar um pipeline, faça um dos seguintes:

  • No canto superior direito do Notebook, clique em Validar .
  • Pressione Shift+Enter em qualquer célula do Notebook.
  • No menu dropdown de uma célula, clique em Validar pipeline .
nota

Se você tentar validar seu pipeline enquanto uma atualização existente já estiver em execução, uma caixa de diálogo será exibida perguntando se você deseja encerrar a atualização existente. Se você clicar em Sim , a atualização existente será interrompida e uma atualização de validação será iniciada automaticamente.

iniciar uma atualização pipeline

Para iniciar uma atualização do seu pipeline, clique no botão iniciar no canto superior direito do Notebook. Consulte a execução de uma atualização no pipeline declarativo LakeFlow.

ver o status de uma atualização

O painel superior no Notebook exibe se uma atualização pipeline é:

  • Iniciando
  • Validando
  • Parando

ver erros e diagnósticos

Após iniciar uma atualização ou validação pipeline , quaisquer erros serão mostrados em linha com um sublinhado vermelho. Passe o mouse sobre um erro para ver mais informações.

visualizar eventos pipeline

Quando anexado a um pipeline, há uma tab log eventos do pipeline declarativo LakeFlow na parte inferior do Notebook.

Registro de eventos

visualizar o gráfico pipeline Dataflow

Para view o gráfico de fluxo de dados de um pipeline, use a tab Gráfico de pipeline declarativo LakeFlow na parte inferior do Notebook. Selecionar um nó no gráfico exibe seu esquema no painel direito.

Gráfico de fluxo de dados

Como acessar a interface do usuário do pipeline declarativo LakeFlow a partir do Notebook

Para acessar facilmente a interface do pipeline declarativo LakeFlow , use o menu no canto superior direito do Notebook.

Abrir na interface do usuário LDP a partir do Notebook

Acesse logs do driver e a Spark UI no Notebook

Os logs do driver e Spark UI associados ao pipeline que está sendo desenvolvido podem ser facilmente acessados no menu de exibição do Notebook.

Acessar logs de driver e Spark UI