Desenvolver e depurar pipeline ETL com um Notebook no pipeline declarativo LakeFlow
Visualização
Este recurso está em Visualização Pública.
Este artigo descreve como usar um Notebook no pipeline declarativo LakeFlow para desenvolver e depurar o pipeline ETL .
Esta página descreve a experiência de edição do antigo Notebook. A experiência default recomendada é o LakeFlow Pipelines Editor. Você pode usar o LakeFlow Pipelines Editor para editar arquivos de código do Notebook, Python ou SQL para um pipeline. Para obter mais informações, consulte Desenvolver e depurar pipeline ETL com o LakeFlow Pipelines Editor.
Para configurar a experiência do Notebook descrita nesta página, você deve desativar o Editor LakeFlow Pipelines . Consulte Habilitar o Editor LakeFlow Pipelines e monitoramento atualizado.
Visão geral do Notebook no pipeline declarativo LakeFlow
Ao trabalhar em um Python ou SQL Notebook configurado como código-fonte para um pipeline existente, você pode conectar o Notebook diretamente ao pipeline. Quando o Notebook está conectado ao pipeline, os seguintes recursos estão disponíveis:
- iniciar e validar o pipeline do Notebook.
- visualize o gráfico de fluxo de dados e log eventos do pipeline para obter a atualização mais recente no Notebook.
- visualizar diagnósticos pipeline no editor do Notebook.
- visualizar o status do cluster do pipeline no Notebook.
- Acesse a interface do pipeline declarativo LakeFlow no Notebook.
Pré-requisitos
- Você deve ter um pipeline existente com um Python ou SQL Notebook configurado como código-fonte.
- Você deve ser o proprietário do pipeline ou ter o privilégio
CAN_MANAGE
.
Limitações
- Os recursos abordados neste artigo estão disponíveis apenas no Databricks Notebook. arquivos de espaço de trabalho não são suportados.
- O terminal web não está disponível quando conectado a um pipeline. Como resultado, ele não fica visível como uma tab no painel inferior.
Conectar um notebook a um pipeline
Dentro do Notebook, clique no menu suspenso usado para selecionar compute. O menu suspenso mostra todo o seu pipeline declarativo LakeFlow com este Notebook como código-fonte. Para conectar o Notebook a um pipeline, selecione-o na lista.
visualizar o status do cluster do pipeline
Para entender facilmente o estado do cluster do seu pipeline, seu status é mostrado no menu suspenso de compute com uma cor verde para indicar que o cluster está em execução.
Validar código do pipeline
Você pode validar o pipeline para verificar erros de sintaxe no seu código-fonte sem processar nenhum dado.
Para validar um pipeline, faça um dos seguintes:
- No canto superior direito do Notebook, clique em Validar .
- Pressione
Shift+Enter
em qualquer célula do Notebook. - No menu dropdown de uma célula, clique em Validar pipeline .
Se você tentar validar seu pipeline enquanto uma atualização existente já estiver em execução, uma caixa de diálogo será exibida perguntando se você deseja encerrar a atualização existente. Se você clicar em Sim , a atualização existente será interrompida e uma atualização de validação será iniciada automaticamente.
iniciar uma atualização pipeline
Para iniciar uma atualização do seu pipeline, clique no botão iniciar no canto superior direito do Notebook. Consulte a execução de uma atualização no pipeline declarativo LakeFlow.
ver o status de uma atualização
O painel superior no Notebook exibe se uma atualização pipeline é:
- Iniciando
- Validando
- Parando
ver erros e diagnósticos
Após iniciar uma atualização ou validação pipeline , quaisquer erros serão mostrados em linha com um sublinhado vermelho. Passe o mouse sobre um erro para ver mais informações.
visualizar eventos pipeline
Quando anexado a um pipeline, há uma tab log eventos do pipeline declarativo LakeFlow na parte inferior do Notebook.
visualizar o gráfico pipeline Dataflow
Para view o gráfico de fluxo de dados de um pipeline, use a tab Gráfico de pipeline declarativo LakeFlow na parte inferior do Notebook. Selecionar um nó no gráfico exibe seu esquema no painel direito.
Como acessar a interface do usuário do pipeline declarativo LakeFlow a partir do Notebook
Para acessar facilmente a interface do pipeline declarativo LakeFlow , use o menu no canto superior direito do Notebook.
Acesse logs do driver e a Spark UI no Notebook
Os logs do driver e Spark UI associados ao pipeline que está sendo desenvolvido podem ser facilmente acessados no menu de exibição do Notebook.