Pular para o conteúdo principal

Desenvolva e depure um pipeline ETL com um Notebook no LakeFlow Spark Declarative pipeline.

info

Visualização

Este recurso está em Visualização Pública.

Este artigo descreve como usar um Notebook em um pipeline declarativo LakeFlow Spark para desenvolver e depurar um pipeline ETL .

nota

Esta página descreve a experiência de edição do antigo Notebook. A experiência default recomendada é o LakeFlow Pipelines Editor. Você pode usar o LakeFlow Pipelines Editor para editar arquivos de código do Notebook, Python ou SQL para um pipeline. Para obter mais informações, consulte Desenvolver e depurar pipeline ETL com o LakeFlow Pipelines Editor.

Para configurar a experiência do Notebook descrita nesta página, você deve desativar o Editor LakeFlow Pipelines . Consulte Habilitar o Editor LakeFlow Pipelines e monitoramento atualizado.

Visão geral do Notebook no pipeline declarativo LakeFlow Spark

Ao trabalhar em um Python ou SQL Notebook configurado como código-fonte para um pipeline existente, você pode conectar o Notebook diretamente ao pipeline. Quando o Notebook está conectado ao pipeline, os seguintes recursos estão disponíveis:

  • iniciar e validar o pipeline do Notebook.
  • visualize o gráfico de fluxo de dados e log eventos do pipeline para obter a atualização mais recente no Notebook.
  • visualizar diagnósticos pipeline no editor do Notebook.
  • visualizar o status do cluster do pipeline no Notebook.
  • Acesse a interface de usuário do pipeline declarativo do LakeFlow Spark a partir do Notebook.

Pré-requisitos

  • Você deve ter um pipeline existente com um Python ou SQL Notebook configurado como código-fonte.
  • Você deve ser o proprietário do pipeline ou ter o privilégio CAN_MANAGE .

Limitações

  • Os recursos abordados neste artigo estão disponíveis apenas no Databricks Notebook. arquivos de espaço de trabalho não são suportados.
  • O terminal web não está disponível quando conectado a um pipeline. Como resultado, ele não fica visível como uma tab no painel inferior.

Conectar um notebook a um pipeline

Dentro do Notebook, clique no menu suspenso usado para selecionar compute. O menu suspenso mostra todo o seu pipeline declarativo LakeFlow Spark com este Notebook como código-fonte. Para conectar o Notebook a um pipeline, selecione-o na lista.

visualizar o status do cluster do pipeline

Para entender facilmente o estado do cluster do seu pipeline, seu status é mostrado no menu suspenso de compute com uma cor verde para indicar que o cluster está em execução.

Validar código do pipeline

Você pode validar o pipeline para verificar erros de sintaxe no seu código-fonte sem processar nenhum dado.

Para validar um pipeline, faça um dos seguintes:

  • No canto superior direito do Notebook, clique em Validar .
  • Pressione Shift+Enter em qualquer célula do Notebook.
  • No menu dropdown de uma célula, clique em Validar pipeline .
nota

Se você tentar validar seu pipeline enquanto uma atualização existente já estiver em execução, uma caixa de diálogo será exibida perguntando se você deseja encerrar a atualização existente. Se você clicar em Sim , a atualização existente será interrompida e uma atualização de validação será iniciada automaticamente.

iniciar uma atualização pipeline

Para iniciar uma atualização do seu pipeline, clique no botão "Iniciar" no canto superior direito do Notebook. Consulte execução de uma atualização pipeline.

ver o status de uma atualização

O painel superior no Notebook exibe se uma atualização pipeline é:

  • Iniciando
  • Validando
  • Parando

ver erros e diagnósticos

Após iniciar uma atualização ou validação pipeline , quaisquer erros serão mostrados em linha com um sublinhado vermelho. Passe o mouse sobre um erro para ver mais informações.

visualizar eventos pipeline

Quando conectado a um pipeline, há uma tab log eventos do pipeline declarativo LakeFlow Spark na parte inferior do Notebook.

Registro de eventos

visualizar o gráfico pipeline Dataflow

Para view o gráfico do fluxo de dados de um pipeline, use a tab "Gráfico do pipeline declarativo LakeFlow Spark na parte inferior do Notebook. Selecionar um nó no gráfico exibe seu esquema no painel direito.

Gráfico de fluxo de dados

Como acessar a interface do usuário do pipeline declarativo LakeFlow Spark a partir do Notebook

Para acessar facilmente a interface de usuário do pipeline declarativo LakeFlow Spark , use o menu no canto superior direito do Notebook.

Abrir na interface do usuário LDP a partir do Notebook

Acesse logs do driver e a Spark UI no Notebook

Os logs do driver e Spark UI associados ao pipeline que está sendo desenvolvido podem ser facilmente acessados no menu de exibição do Notebook.

Acessar logs de driver e Spark UI