Desenvolver e depurar pipeline ETL com o LakeFlow Pipelines Editor
Visualização
Este recurso está em Visualização Pública.
Este artigo descreve o uso do LakeFlow Pipelines Editor para desenvolver e depurar pipelines ETL (extrair, transformar e carregar) no pipeline declarativo LakeFlow .
O Editor LakeFlow Pipelines é habilitado por default. Você pode desligá-lo ou reativá-lo caso ele tenha sido desligado. Consulte Habilitar o Editor LakeFlow Pipelines e monitoramento atualizado.
O que é o LakeFlow Pipelines Editor?
O LakeFlow Pipelines Editor é um IDE criado para desenvolver pipelines declarativos LakeFlow . Ele combina todas as tarefas de desenvolvimento pipeline em uma única superfície, oferecendo suporte a fluxo de trabalho com foco em código, organização de código baseada em pastas, execução seletiva, visualizações de dados e gráficos pipeline . Integrado à plataforma Databricks , também permite controle de versão, revisões de código e execução agendada.
Visão geral da interface do usuário do editor LakeFlow Pipelines
A imagem a seguir mostra o Editor LakeFlow Pipelines :
A imagem mostra o seguinte recurso:
- Navegador pipeline ativo: Crie, exclua, renomeie e organize pipeline ativo. Inclui também atalhos para configuração de pipeline.
- Editor de código de vários arquivos com guia: trabalhe em vários arquivos de código associados a um pipeline.
- barra de ferramentas específica do pipeline: inclui opções de configuração pipeline e possui ações de execução no nívelpipeline.
- Gráfico acíclico direcionado interativo (DAG): obtenha uma visão geral de suas tabelas, abra a barra inferior de visualizações de dados e execute outras ações relacionadas à tabela.
- Visualização de dados: inspecione os dados de suas tabelas de transmissão e visualização materializada.
- Percepções de execução em nível de tabela: obtenha percepções de execução para todas as tabelas ou uma única tabela em um pipeline. As percepções referem-se à última execução pipeline .
- Painel de problemas: este recurso resume os erros em todos os arquivos no pipeline, e você pode navegar até onde o erro ocorreu dentro de um arquivo específico. Ele complementa os indicadores de erro afixados no código.
- Execução seletiva: O editor de código possui recursos para desenvolvimento passo a passo, como a capacidade de refresh tabelas somente no arquivo atual usando a ação de execução do arquivo ou uma única tabela.
- estrutura de pastas pipeline padrão: o novo pipeline inclui uma estrutura de pastas predefinida e um código de exemplo que você pode usar como ponto de partida para seu pipeline.
- Criação simplificada pipeline: forneça um nome, catálogo e esquema onde as tabelas devem ser criadas por default, e um pipeline é criado usando as configurações default . Mais tarde, você pode ajustar as Configurações na barra de ferramentas do editor de pipeline.
Criar um novo pipeline ETL
Para criar um novo pipeline ETL usando o LakeFlow Pipelines Editor, siga estes passos:
-
Na parte superior da barra lateral, clique em
Novo e então selecione
pipelineETL .
-
Na parte superior, você pode dar um nome exclusivo ao seu pipeline.
-
Logo abaixo do nome, você pode ver o catálogo default e o esquema que foram escolhidos para você. Altere-as para dar ao seu pipeline um padrão diferente.
O catálogo default e o esquema default são onde os conjuntos de dados são lidos ou gravados quando você não qualifica o conjunto de dados com um catálogo ou esquema no seu código. Consulte Objetos de banco de dados em Databricks para obter mais informações.
-
Selecione sua opção preferida para criar um pipeline, escolhendo uma das seguintes opções:
- comece com código de exemplo em SQL para criar um novo pipeline e estrutura de pastas, incluindo código de exemplo em SQL.
- comece com código de exemplo em Python para criar um novo pipeline e estrutura de pastas, incluindo código de exemplo em Python.
- começar com uma única transformação para criar um novo pipeline e estrutura de pastas, com um novo arquivo de código em branco.
- Adicione um ativo existente para criar um pipeline que você pode associar a arquivos de código existentes no seu workspace.
Você pode ter arquivos de código-fonte SQL e Python em seu pipeline ETL. Ao criar um novo pipeline e escolher um idioma para o código de exemplo, o idioma será apenas para o código de exemplo incluído no seu pipeline por default.
-
Ao fazer sua seleção, você será redirecionado para o pipeline recém-criado.
O pipeline ETL é criado com as seguintes configurações default :
- Unity Catalog
- Canal atual
- computação sem servidor
- Modo de desenvolvimento desativado. Esta configuração afeta apenas a execução agendada do pipeline. Executar o pipeline a partir do editor sempre usa o modo de desenvolvimento por padrão.
Você pode ajustar essas configurações na barra de ferramentas do pipeline.
Como alternativa, você pode criar um pipeline ETL no navegador workspace :
- Clique em área de trabalho no painel lateral esquerdo.
- Selecione qualquer pasta, incluindo pastas do Git.
- Clique em Criar no canto superior direito e clique em pipelineETL .
Você também pode criar um pipeline ETL na página Trabalho e pipeline:
- No seu workspace, clique em
Empregos e pipeline na barra lateral.
- Em Novo , clique em PipelineETL .
Abra um pipeline ETL existente
Há várias maneiras de abrir um pipeline ETL existente no Editor LakeFlow Pipelines :
-
Abra qualquer arquivo de origem associado ao pipeline:
- Clique em área de trabalho no painel lateral.
- Navegue até uma pasta com arquivos de código-fonte para seu pipeline.
- Clique no arquivo de código-fonte para abrir o pipeline no editor.
-
Abra um pipeline editado recentemente:
- No editor, você pode navegar para outro pipeline que editou recentemente clicando no nome do pipeline na parte superior do navegador ativo e escolhendo outro pipeline na lista de recentes que aparece.
- Fora do editor, na página Recentes na barra lateral esquerda, abra um pipeline ou um arquivo configurado como código-fonte para um pipeline.
-
Ao visualizar um pipeline no produto, você pode optar por editá pipeline:
- Na página de monitoramento do pipeline, clique em
Editar pipeline .
- Na página de execuçãoJob na barra lateral esquerda, clique tab Jobs & pipeline e clique em
e Editar pipeline .
- Ao editar um trabalho e adicionar uma tarefa pipeline , você pode clicar em
botão quando você escolhe um pipeline em pipeline .
- Na página de monitoramento do pipeline, clique em
-
Se você estiver navegando por todos os arquivos no navegador ativo e abrir um arquivo de código-fonte de outro pipeline, um banner será exibido na parte superior do editor, solicitando que você abra o pipeline associado.
navegador ativo do pipeline
Ao editar um pipeline, a barra lateral esquerda workspace usa um modo especial chamado navegador ativopipeline . Por default, o navegador ativo pipeline se concentra na raiz pipeline e nas pastas e arquivos dentro da raiz. Você também pode optar por view Todos os arquivos para ver os arquivos fora da raiz do pipeline. A aba aberta no editor pipeline durante a edição de um pipeline específico é lembrada e, quando você alterna para outro pipeline, a aba aberta na última vez que você editou esse pipeline é restaurada.
O editor também tem contextos para editar arquivos SQL (chamado Databricks SQL Editor ) e um contexto geral para editar arquivos de workspace que não são arquivos SQL ou arquivos pipeline . Cada um desses contextos lembra e restaura a aba que você tinha aberta na última vez que usou esse contexto. Você pode alternar o contexto na parte superior da barra lateral esquerda. Clique no cabeçalho para escolher entre espaço de trabalho, Editor SQL ou pipeline editado recentemente.
Quando você abre um arquivo na página do navegador do espaço de trabalho, ele é aberto no editor correspondente àquele arquivo. Se o arquivo estiver associado a um pipeline, esse é o Editor LakeFlow Pipelines .
Para abrir um arquivo que não faz parte do pipeline, mas mantém o contexto pipeline , abra o arquivo na tab Todos os arquivos do navegador ativo.
O navegador ativo pipeline tem duas abas:
- pipeline : aqui é onde você pode encontrar todos os arquivos associados ao pipeline. Você pode criar, excluir, renomear e organizá-los em pastas. Esta tab também inclui atalhos para configuração pipeline e uma view gráfica da execução recente.
- Todos os arquivos : todos os outros ativos workspace estão disponíveis aqui. Isso pode ser útil para encontrar arquivos para adicionar ao pipeline ou visualizar outros arquivos relacionados ao pipeline, como um arquivo YAML que define um Databricks ativo Bundles.
Você pode ter os seguintes tipos de arquivos em seu pipeline:
- Arquivos de código-fonte: esses arquivos fazem parte da definição de código-fonte do pipeline, que pode ser vista em Configurações . Databricks recomenda sempre armazenar os arquivos de código-fonte dentro da pasta raizpipeline; caso contrário, eles serão exibidos em uma seção de arquivo externo na parte inferior do navegador e terão um conjunto de recursos menos rico.
- Arquivos de código não-fonte: esses arquivos são armazenados dentro da pasta raiz do pipeline, mas não fazem parte da definição do código-fonte do pipeline.
Você deve usar o navegador ativo pipeline na tab pipeline para gerenciar arquivos e pastas para seu pipeline. Isso atualiza as configurações do pipeline corretamente. Mover ou renomear arquivos e pastas do navegador do seu workspace ou tab Todos os arquivos quebra a configuração pipeline , e você deve resolver isso manualmente em Configurações .
Pasta raiz
O navegador ativo pipeline está ancorado em uma pasta raiz pipeline . Quando você cria um novo pipeline, a pasta raiz pipeline é criada na pasta inicial do seu usuário e recebe o mesmo nome do pipeline .
Você pode alterar a pasta raiz no navegador ativo pipeline . Isso é útil se você criou um pipeline em uma pasta e depois deseja mover tudo para uma pasta diferente. Por exemplo, você criou o pipeline em uma pasta normal e deseja mover o código-fonte para uma pasta Git para controle de versão.
- Clique no
menu de estouro para a pasta raiz.
- Clique em Configurar nova pasta raiz .
- Na pasta raiz do pipeline, clique em
e escolha outra pasta como pasta raiz pipeline .
- Clique em Salvar .
No para a pasta raiz, você também pode clicar em Renomear pasta raiz para renomear o nome da pasta. Aqui, você também pode clicar em Mover pasta raiz para mover a pasta raiz, por exemplo, para uma pasta Git.
Você também pode alterar a pasta raiz do pipeline nas configurações:
- Clique em Configurações .
- Em Código ativo, clique em Configurar caminhos .
- Clique
para alterar a pasta na pasta raiz do pipeline .
- Clique em Salvar .
Se você alterar a pasta raiz pipeline , a lista de arquivos exibida pelo navegador ativo pipeline será afetada, pois os arquivos na pasta raiz anterior serão exibidos como arquivos externos.
pipeline existente sem pasta raiz
Um pipeline existente criado usando a experiência de edição legada do Notebook não terá uma pasta raiz configurada. Ao abrir um pipeline que não tem uma pasta raiz configurada, você será solicitado a criar uma pasta raiz e organizar os arquivos de origem dentro dela.
Você pode ignorar isso e continuar editando o pipeline sem definir uma pasta raiz.
Se você desejar configurar posteriormente a pasta raiz do seu pipeline, siga estes passos:
- No navegador ativo pipeline , clique em Configurar .
- Clique
para selecionar a pasta raiz em pasta raiz do pipeline .
- Clique em Salvar .
estrutura de pasta padrão
Quando você cria um novo pipeline, uma estrutura de pastas default é criada. Esta é a estrutura recomendada para organizar seus arquivos de código-fonte e não-fonte do pipeline, conforme descrito abaixo.
Um pequeno número de arquivos de código de exemplo é criado nesta estrutura de pastas.
Nome da pasta | Local recomendado para esses tipos de arquivos |
---|---|
| Pasta raiz que contém todas as pastas e arquivos do seu pipeline. |
| Arquivos de código-fonte, como arquivos de código Python ou SQL com definições de tabela. |
| Arquivos de código não-fonte, como Notebook, consultas e arquivos de código usados para análise exploratória de dados. |
| Arquivos de código não-fonte com módulos Python que podem ser importados de outros arquivos de código. Se você escolher SQL como sua linguagem para código de exemplo, esta pasta não será criada. |
Você pode renomear os nomes das pastas ou alterar a estrutura para adequá-los ao seu fluxo de trabalho. Para adicionar uma nova pasta de código-fonte, siga estes passos:
- Clique em Adicionar no navegador ativo pipeline .
- Clique em Criar pasta de código-fonte do pipeline .
- Digite um nome de pasta e clique em Criar .
Arquivos de código-fonte
Os arquivos de código-fonte fazem parte da definição de código-fonte do pipeline. Quando você executa o pipeline, esses arquivos são avaliados. Arquivos e pastas que fazem parte da definição do código-fonte têm um ícone especial com um mini ícone de pipeline sobreposto.
Para adicionar um novo arquivo de código-fonte, siga estes passos:
- Clique em Adicionar no navegador ativo pipeline .
- Clique em transformações .
- Digite um nome para o arquivo e selecione Python ou SQL como linguagem .
- Clique em Criar .
Você também pode clicar para qualquer pasta no pipeline ativo do navegador para adicionar um arquivo de código-fonte.
Uma pasta transformations
para código-fonte é criada por default quando você cria um novo pipeline. Esta pasta é o local recomendado para o código-fonte do pipeline, como arquivos de código Python ou SQL com definições de tabela de pipeline.
Arquivos que não são de código fonte
Arquivos que não são de código-fonte são armazenados dentro da pasta raiz do pipeline, mas não fazem parte da definição do código-fonte do pipeline. Esses arquivos não são avaliados quando você executa o pipeline. Arquivos que não sejam de código-fonte não podem ser arquivos externos.
Você pode usar isso para arquivos relacionados ao seu trabalho no pipeline que você gostaria de armazenar junto com o código-fonte. Por exemplo:
- Notebook que você usa para explorações ad hoc executadas em compute de pipeline declarativa nãoLakeFlow fora do ciclo de vida de um pipeline.
- Módulos Python que não devem ser avaliados com seu código-fonte, a menos que você importe explicitamente esses módulos dentro dos seus arquivos de código-fonte.
Para adicionar um novo arquivo de código não-fonte, siga estes passos:
- Clique em Adicionar no navegador ativo pipeline .
- Clique em Exploração ou Russas .
- Digite um nome para o arquivo.
- Clique em Criar .
Você também pode clicar para a pasta raiz do pipeline ou um arquivo de código não-fonte para adicionar arquivos de código não-fonte à pasta.
Quando você cria um novo pipeline, as seguintes pastas para arquivos que não são de código-fonte são criadas por default:
Nome da pasta | Descrição |
---|---|
| Esta pasta é o local recomendado para Notebook, consultas, painéis e outros arquivos, para que você possa compute -los em um pipeline declarativo nãoLakeFlow , como normalmente faria fora do ciclo de vida de execução de um pipeline. |
| Esta pasta é o local recomendado para módulos Python que podem ser importados de outros arquivos por meio de importações diretas expressas como |
Você também pode importar módulos Python localizados fora da pasta raiz, mas nesse caso, você deve anexar o caminho da pasta a sys.path
no seu código Python:
import sys, os
sys.path.append(os.path.abspath('<alternate_path_for_utilities>/utilities'))
from utils import \*
Arquivos externos
A seção Arquivos externos do navegador de pipeline mostra arquivos de código-fonte fora da pasta raiz.
Para mover um arquivo externo para a pasta raiz, como a pasta transformations
, siga estes passos:
- Clique
para o arquivo no navegador ativo e clique em Mover .
- Escolha a pasta para a qual deseja mover o arquivo e clique em Mover .
Arquivos associados a vários pipelines
Um emblema é exibido no cabeçalho do arquivo se um arquivo estiver associado a mais de um pipeline. Ele tem uma contagem de pipelines associados e permite alternar para outros.
Seção Todos os arquivos
Além da seção pipeline , há uma seção Todos os arquivos , onde você pode abrir qualquer arquivo no seu workspace. Aqui você pode:
- Abra arquivos fora da pasta raiz em uma tab sem sair do Editor LakeFlow Pipelines .
- Navegue até os arquivos de código-fonte de outro pipeline e abra-os. Isso abre o arquivo no editor e exibe um banner com a opção de alternar o foco no editor para esse segundo pipeline.
- Mova os arquivos para a pasta raiz do pipeline.
- Inclua arquivos fora da pasta raiz na definição do código-fonte do pipeline.
Editar arquivos de origem do pipeline
Quando você abre um arquivo de origem pipeline no navegador workspace ou no navegador ativo pipeline , ele é aberto em uma tab do editor no Editor LakeFlow Pipelines . Abrir mais arquivos abre uma aba separada, permitindo que você edite vários arquivos de uma só vez.
Abrir um arquivo que não está associado a um pipeline no navegador workspace abrirá o editor em um contexto diferente (o editor geral do espaço de trabalho ou, para arquivos SQL , o EditorSQL ).
Quando você abre um arquivo que não épipeline tab Todos os arquivos do navegador ativo do pipeline , ele é aberto em uma nova tab no contexto pipeline .
O código-fonte do pipeline inclui vários arquivos. Por default os arquivos de origem estão na pasta transformações no navegador pipeline ativo. Os arquivos de código-fonte podem ser arquivos Python ( *.py ) ou SQL ( *.sql ). Sua origem pode incluir uma mistura de arquivos Python e SQL em um único pipeline, e o código em um arquivo pode referenciar uma tabela ou view definida em outro arquivo.
Você também pode incluir arquivos markdown ( *.md ) na sua pasta de transformações . Arquivos Markdown podem ser usados para documentação ou notas, mas são ignorados ao executar uma atualização de pipeline.
Os recursos a seguir são específicos para o LakeFlow Pipelines Editor:
-
Conectar - Conecte-se ao serverless ou à compute clássica para executar o pipeline. Todos os arquivos associados ao pipeline usam a mesma conexão compute , portanto, depois de se conectar, você não precisa se conectar para outros arquivos no mesmo pipeline. Para obter mais informações sobre opções compute , consulte opções de configuração de computação.
Para arquivos que não sejampipeline , como um Notebook exploratório, a opção de conexão está disponível, mas se aplica somente a esse arquivo individual.
-
arquivo de execução - executa o código para atualizar as tabelas definidas neste arquivo fonte. A próxima seção descreve diferentes maneiras de executar seu código pipeline .
-
Editar - Use o Databricks Assistant para editar ou adicionar código no arquivo.
-
Solução rápida - Quando houver um erro no seu código, use o Assistente para corrigi-lo.
O painel inferior também se ajusta com base na tab atual. A visualização de informações pipeline no painel inferior está sempre disponível. Arquivos não associadospipeline , como arquivos do editor SQL , também mostram sua saída no painel inferior em uma tab separada. A imagem a seguir mostra um seletor tab verticais para alternar o painel inferior entre a visualização de informações pipeline ou informações do Notebook selecionado.
código de execução pipeline
Você tem quatro opções para executar seu código pipeline :
-
executar todos os arquivos de código-fonte no pipeline
Clique em executar pipeline ou executar pipeline com refreshcompleta da tabela para executar todas as definições de tabela em todos os arquivos definidos como código-fonte pipeline . Para obter detalhes sobre os tipos de refresh , consulte semântica refresh do pipeline.
Você também pode clicar em Executar a seco para validar o pipeline sem atualizar nenhum dado.
-
execução do código em um único arquivo
Clique em arquivo de execução ou arquivo de execução com refreshcompleta da tabela para executar todas as definições de tabela no arquivo atual. Outros arquivos no pipeline não são avaliados.
Esta opção é útil para depuração ao editar e iterar rapidamente em um arquivo. Há efeitos colaterais ao executar o código em apenas um arquivo.
- Quando outros arquivos não são avaliados, erros nesses arquivos não são encontrados.
- Tabelas materializadas em outros arquivos usam a materialização mais recente da tabela, mesmo que haja dados de origem mais recentes.
- Você pode executar em erros se uma tabela referenciada ainda não tiver sido materializada.
- O DAG pode estar incorreto ou desconexo para tabelas em outros arquivos que não foram materializados. O Databricks faz o possível para manter o gráfico correto, mas não avalia outros arquivos para fazer isso.
Quando você terminar de testar e editar um arquivo, Databricks recomenda executar todos os arquivos de código-fonte no pipeline para verificar se o pipeline funciona de ponta a ponta antes de colocá pipeline em produção.
-
execução do código para uma única tabela
Ao lado da definição de uma tabela no arquivo de código-fonte, clique no ícone da tabela de execução
e então escolha Atualizar tabela ou refresh tabela completa no menu suspenso. Executar o código para uma única tabela tem efeitos colaterais semelhantes aos de executar o código em um único arquivo.
A execução do código para uma única tabela está disponível para tabelas de transmissão e visualização materializada. Pias e visualizações não são suportadas.
-
execução do código para um conjunto de tabelas
Você pode selecionar tabelas do DAG para criar uma lista de tabelas para execução. Passe o mouse sobre a tabela no DAG, clique no
e escolha Selecionar tabela para refresh . Depois de escolher as tabelas a serem refresh, escolha a opção execução ou execução com refreshcompleta na parte inferior do DAG.
pipeline gráfico, direção gráfica acíclica (DAG)
Depois de executar ou validar todos os arquivos de código-fonte no pipeline, você verá um gráfico acíclico direcionado (DAG), chamado gráfico dopipeline . O gráfico mostra o gráfico de dependência da tabela. Cada nó tem estados diferentes ao longo do ciclo de vida do pipeline, como validado, em execução ou erro.
Você pode ativar ou desativar o gráfico clicando no ícone do gráfico no painel lateral direito. Você também pode maximizar o gráfico. Existem opções adicionais no canto inferior direito, incluindo opções de zoom e Mais opções para exibir os gráficos em disposição vertical ou horizontal.
Passar o mouse sobre um nó exibe uma barra de ferramentas com opções, incluindo refresh a consulta. Clicar com o botão direito do mouse em um nó fornece as mesmas opções em um menu de contexto.
Clicar em um nó mostra a visualização dos dados e a definição da tabela. Quando você edita um arquivo, as tabelas definidas naquele arquivo são destacadas no gráfico.
Prévias de dados
A seção de visualização de dados mostra dados de amostra para uma tabela selecionada.
Você vê uma prévia dos dados da tabela ao clicar em um nó no gráfico acíclico direcionado (DAG).
Se nenhuma tabela foi selecionada, vá para a seção Tabelas e clique em visualizar dados . Se você escolheu uma tabela, clique em Todas as tabelas para retornar a todas as tabelas.
Ao visualizar os dados da tabela, você pode filtrar ou classificar os dados no local. Se quiser fazer análises mais complexas, você pode usar ou criar um Notebook na pasta Explorations (supondo que você tenha mantido a estrutura de pastas default ). Por default, o código-fonte nesta pasta não é executado durante uma atualização pipeline , então você pode criar consultas sem afetar a saída pipeline .
Percepções de execução
Você pode ver as percepções de execução da tabela sobre a última atualização pipeline nos painéis na parte inferior do editor.
Painel | Descrição |
---|---|
tabelas | Lista todas as tabelas com seus status e métricas. Se você selecionar uma tabela, verá as métricas e o desempenho dessa tabela e uma tab para a visualização dos dados. |
Desempenho | Histórico de consulta e perfis para todos os fluxos neste pipeline. Você pode acessar métricas de execução e planos de consulta detalhados durante e após a execução. Consulte Acessar história de consulta para pipeline declarativo LakeFlow para obter mais informações. |
Painel de questões | Clique no painel para uma view simplificada de erros e avisos do pipeline. Você pode clicar em uma entrada para ver mais detalhes e, em seguida, navegar até o local no código onde o erro ocorreu. Se o erro estiver em um arquivo diferente daquele exibido no momento, isso o redirecionará para o arquivo onde o erro está. Clique em visualizar detalhes para ver a entrada log eventos correspondente e obter detalhes completos. Clique em visualizar logs para ver o log de eventos completo. Indicadores de erro afixados no código são exibidos para erros associados a uma parte específica do código. Para obter mais detalhes, clique no ícone de erro ou passe o mouse sobre a linha vermelha. Um pop-up com mais informações aparece. Você pode então clicar em Correção rápida para revelar um conjunto de ações para solucionar o erro. |
Registro de eventos | Todos os eventos disparados durante a última execução do pipeline. Clique em visualizar logs ou qualquer entrada na bandeja de problemas. |
Configuração do pipeline
Você pode configurar seu pipeline no editor de pipeline. Você pode fazer alterações nas configurações pipeline , programar ou permissões.
Cada um deles pode ser acessado por meio de um botão no cabeçalho do editor ou por meio de ícones no navegador ativo (barra lateral esquerda).
-
Configurações (ou escolha
no navegador ativo):
Você pode editar as configurações do pipeline no painel de configurações, incluindo informações gerais, configuração da pasta raiz e do código-fonte, configuração compute , notificações, configurações avançadas e muito mais.
-
programar (ou escolher
no navegador ativo):
Você pode criar um ou mais programas para seu pipeline na caixa de diálogo de programas. Por exemplo, se você quiser executá-lo diariamente, você pode definir isso aqui. Ele cria um Job para executar o pipeline no programa que você escolher. Você pode adicionar um novo programa ou remover um programa existente na caixa de diálogo de programas.
-
Compartilhar (ou, do
menu no navegador ativo, escolha
):
Você pode gerenciar permissões no pipeline para usuários e grupos na caixa de diálogo de permissões do pipeline.
Registro de eventos
Você pode publicar o log de eventos de um pipeline no Unity Catalog. Por default, o log de eventos do seu pipeline é exibido na interface do usuário e pode ser consultado pelo proprietário.
- Abra Configurações .
- Clique no
seta ao lado de Configurações avançadas .
- Clique em Editar configurações avançadas .
- Em logsde eventos , clique em Publicar no catálogo .
- Forneça um nome, catálogo e esquema para o log de eventos.
- Clique em Salvar .
Os eventos do seu pipeline são publicados na tabela que você especificou.
Para saber mais sobre como usar o log de eventos do pipeline, consulte Consultar o log de eventos.
Ambiente de pipeline
Você pode criar um ambiente para seu código-fonte adicionando dependências em Configurações .
- Abra Configurações .
- Em Ambiente , clique em Editar ambiente .
- Selecione
Adicionar dependência para adicionar uma dependência, como se você estivesse adicionando-a a um arquivo
requirements.txt
. Para obter mais informações sobre dependências, consulte Adicionar dependências ao Notebook.
Databricks recomenda que você pin a versão com ==
. Veja o pacote PyPI.
O ambiente se aplica a todos os arquivos de código-fonte no seu pipeline.
Notificações
Você pode adicionar notificações usando as configurações do pipeline .
- Abra Configurações .
- Na seção Notificações , clique em Adicionar notificação .
- Adicione um ou mais endereços email e os eventos para os quais você deseja que eles sejam enviados.
- Clique em Adicionar notificação .
Crie respostas personalizadas para eventos, incluindo notificações ou tratamento personalizado, usando ganchos de eventos do Python.
monitoramento de oleoduto
Databricks também fornece recursos para monitorar o pipeline em execução. O editor mostra os resultados e percepções de execução sobre a execução mais recente. Ele é otimizado para ajudar você a iterar de forma eficiente enquanto desenvolve seu pipeline de forma interativa.
A página de monitoramento pipeline permite view o histórico de execução, o que é útil quando um pipeline está sendo executado em um programa usando um Job.
Há uma experiência de monitoramento default e uma experiência de monitoramento de visualização atualizada. A seção a seguir descreve como habilitar ou desabilitar a experiência de monitoramento de visualização. Para obter informações sobre ambas as experiências, consulte Monitorar o pipeline declarativo LakeFlow na interface do usuário.
A experiência de monitoramento está disponível no botão Jobs & pipeline no lado esquerdo do seu workspace. Você também pode ir diretamente para a página de monitoramento a partir do editor clicando nos resultados da execução no navegador do pipeline ativo.
Para mais informações sobre a página de monitoramento, consulte Monitor LakeFlow Declarative pipeline in the UI. A interface de monitoramento inclui a capacidade de retornar ao Editor LakeFlow Pipelines selecionando Editar pipeline no cabeçalho da interface de usuário.
Habilitar o LakeFlow Pipelines Editor e monitoramento atualizado
A visualização do LakeFlow Pipelines Editor é habilitada por default. Você pode desativá-lo ou reativá-lo seguindo as instruções a seguir. Quando a visualização do LakeFlow Pipelines Editor estiver habilitada, você também poderá habilitar a experiência de monitoramento atualizada (visualização).
A visualização deve ser ativada definindo a opção LakeFlow Pipelines Editor para seu workspace. Consulte as visualizações do gerenciamento Databricks para obter mais informações sobre como editar opções.
Depois que a visualização estiver habilitada, você poderá habilitar o LakeFlow Pipelines Editor de várias maneiras:
-
Ao criar um novo pipeline ETL, ative o editor no pipeline declarativo LakeFlow com a alternância do EditorLakeFlow Pipelines .
A página de configurações avançadas do pipeline é usada na primeira vez que você ativa o editor. A janela simplificada de criação de pipeline será usada na próxima vez que você criar um novo pipeline.
-
Para um pipeline existente, abra um Notebook usado em um pipeline e ative a opção EditorLakeFlow Pipelines no cabeçalho. Você também pode ir até a página de monitoramento pipeline e clicar em Configurações para habilitar o Editor LakeFlow Pipelines .
-
Você pode habilitar o LakeFlow Pipelines Editor nas configurações do usuário:
- Clique no seu emblema de usuário na área superior direita do seu workspace e depois clique em Configurações e Desenvolvedor .
- Habilitar o EditorLakeFlow Pipelines .
Depois de habilitar a alternância do Editor deLakeFlow Pipelines , todos os pipelines ETL usarão o Editor de LakeFlow Pipelines por default. Você pode ativar e desativar o Editor LakeFlow Pipelines no editor.
Se você desabilitar o novo editor de pipeline, será útil deixar um feedback descrevendo o motivo da desativação. Há um botão Enviar feedback no menu de alternância para qualquer feedback que você tenha sobre o novo editor.
Habilitar a nova página de monitoramento de pipeline
Visualização
Este recurso está em Visualização Pública.
Como parte da visualização do LakeFlow Pipelines Editor, você também pode habilitar uma nova página de monitoramento pipeline para um pipeline. A visualização do LakeFlow Pipelines Editor deve ser habilitada para habilitar a página de monitoramento pipeline . Quando a pré-visualização do editor está habilitada, a nova página de monitoramento também é habilitada por default.
-
Clique em Trabalhos e pipeline .
-
Clique no nome de qualquer pipeline para view os detalhes do pipeline.
-
Na parte superior da página, ative a interface de monitoramento atualizada com a alternância Nova página de pipeline .
Limitações e problemas conhecidos
Veja as seguintes limitações e problemas conhecidos para o editor pipeline ETL no pipeline declarativo LakeFlow :
-
A barra lateral do navegador workspace não se concentra no pipeline se você começar abrindo um arquivo na pasta
explorations
ou em um Notebook, pois esses arquivos ou o Notebook não fazem parte da definição do código-fonte pipeline .Para entrar no modo de foco pipeline no navegador workspace , abra um arquivo associado ao pipeline.
-
As visualizações de dados não são suportadas para visualização regular.
-
Os módulos Python não são encontrados dentro de uma UDF, mesmo que estejam na sua pasta raiz ou no seu
sys.path
. Você pode acessar esses módulos anexando o caminho aosys.path
de dentro do UDF, por exemplo:sys.path.append(os.path.abspath(“/Workspace/Users/path/to/modules”))
-
%pip install
não é suportado por arquivos (o tipo ativo default com o novo editor). Você pode adicionar dependências nas configurações. Veja Ambiente de pipeline.Como alternativa, você pode continuar a usar
%pip install
de um Notebook associado a um pipeline, em sua definição de código-fonte.
Perguntas frequentes
-
Por que usar arquivos e não o Notebook para código-fonte?
A execução baseada em células do Notebook não é compatível com o pipeline declarativo LakeFlow . Os recursos padrão do Notebook são desabilitados ou alterados ao trabalhar com o pipeline declarativo LakeFlow , o que causa confusão para usuários familiarizados com o comportamento do Notebook.
No LakeFlow Pipelines Editor, o editor de arquivos é usado como base para um editor de primeira classe para o pipeline declarativo LakeFlow . recurso são direcionados explicitamente ao pipeline declarativo LakeFlow , como tabela de execução
, em vez de sobrecarregar recursos familiares com comportamentos diferentes.
-
Ainda posso usar o Notebook como código-fonte?
Sim, você pode. Porém, alguns recursos, como tabela de execução
ou arquivo de execução , não estão presentes.
Se você tiver um pipeline existente usando o Notebook, ele ainda funcionará no novo editor. No entanto, Databricks recomenda alternar para arquivos para o novo pipeline.
-
Como posso adicionar código existente a um pipeline recém-criado?
Você pode adicionar arquivos de código-fonte existentes a um novo pipeline. Para adicionar uma pasta com arquivos existentes, siga estes passos:
- Clique em Configurações .
- Em Código-fonte, clique em Configurar caminhos .
- Clique em Adicionar caminho e escolha a pasta para os arquivos existentes.
- Clique em Salvar .
Você também pode adicionar arquivos individuais:
- Clique em Todos os arquivos no pipeline ativo do navegador.
- Navegue até seu arquivo, clique
e clique em Incluir no pipeline .
Considere mover esses arquivos para a pasta raiz do pipeline. Se deixados fora da pasta raiz do pipeline, eles serão exibidos na seção Arquivos externos .
-
Posso gerenciar o código-fonte do pipeline no Git?
Você pode gerenciar a origem do seu pipeline no Git escolhendo uma pasta Git ao criar o pipeline inicialmente.
Gerenciar seu código-fonte em uma pasta Git adiciona controle de versão ao seu código-fonte. No entanto, para controlar a versão da sua configuração, Databricks recomenda usar Databricks ativo Bundles para definir a configuração pipeline em arquivos de configuração de pacote que podem ser armazenados no Git (ou outro sistema de controle de versão). Para mais informações, consulte O que são pacotes Databricks ativos?.
Se você não criou o pipeline em uma pasta Git inicialmente, você pode mover seu código-fonte para uma pasta Git. O Databricks recomenda usar a ação do editor para mover toda a pasta raiz para uma pasta Git. Isso atualiza todas as configurações adequadamente. Veja Pasta raiz.
Para mover a pasta raiz para uma pasta Git no pipeline ativo do navegador:
- Clique
para a pasta raiz.
- Clique em Mover pasta raiz .
- Escolha um novo local para sua pasta raiz e clique em Mover .
Consulte a seção Pasta raiz para obter mais informações.
Após a movimentação, você verá o ícone familiar do Git ao lado do nome da sua pasta raiz.
Para mover a pasta raiz pipeline , use o navegador pipeline ativo e acima os passos. Movê-lo de qualquer outra forma quebra as configurações do pipeline, e você deve configurar manualmente o caminho correto da pasta em Configurações .
-
Posso ter vários pipelines na mesma pasta raiz?
Você pode, mas Databricks recomenda ter apenas um pipeline por pasta raiz.
-
Quando devo executar uma execução seca?
Clique em Executar a seco para verificar seu código sem atualizar as tabelas.
-
Quando devo usar a visualização temporária e quando devo usar a visualização materializada no meu código?
Use a visualização temporária quando não quiser materializar os dados. Por exemplo, este é um passo em uma sequência de passos para preparar os dados antes que eles estejam prontos para materializar usando uma tabela de transmissão ou view materializada registrada no Catálogo.