Desenvolver e depurar o pipeline ETL com o LakeFlow Pipelines Editor

info

Beta

Esse recurso está na versão beta.

Este artigo descreve o uso do LakeFlow Pipelines Editor para desenvolver e depurar o pipeline ETL (extrair, transformar e carregar) no pipeline LakeFlow Declarative.

Para conhecer a experiência de desenvolvimento do default usando um único Notebook no pipeline LakeFlow Declarative, consulte Desenvolver e depurar o pipeline ETL com um Notebook no pipeline LakeFlow Declarative.

O que é o LakeFlow Pipelines Editor?

O LakeFlow Pipelines Editor é um IDE criado para desenvolver o pipeline declarativo LakeFlow. Ele combina todas as tarefas de desenvolvimento do pipeline em uma única superfície, oferecendo suporte ao fluxo de trabalho code-first, organização de código baseada em pastas, execução seletiva, visualizações de dados e pipeline gráfico. Integrado à plataforma Databricks, ele também permite o controle de versões, revisões de código e execução programada.

Visão geral da interface do usuário do LakeFlow Pipelines Editor

O editor LakeFlow Pipelines tem o seguinte recurso:

pipeline ativo browser: Criar, excluir, renomear e organizar pipeline ativo.
Editor de código de vários arquivos com guia : Trabalhe em vários arquivos de código associados a um site pipeline.
barra de ferramentas específica do pipeline: Habilita pipeline a pipelineconfiguração do e tem ações de execução no nível do.
Gráfico acíclico dirigido (DAG) interativo: Obtenha uma visão geral de suas tabelas, abra a barra inferior de visualização de dados e execute outras ações relacionadas à tabela.
Visualização de dados: Inspecione os dados de suas tabelas de transmissão e visualização materializada.
Percepções de execução em nível de tabela: Obtenha percepções de execução para todas as tabelas ou para uma única tabela em um pipeline. As percepções referem-se à última execução do pipeline.
Painel de problemas: Esse recurso resume os erros em todos os arquivos do pipeline e o senhor pode navegar até onde o erro ocorreu em um arquivo específico. Ele complementa os indicadores de erro afixados no código.
Execução seletiva: O editor de código tem recursos para o desenvolvimento passo a passo, como a capacidade de refresh tabelas somente no arquivo atual usando a ação executar arquivo ou uma única tabela.
estrutura de pastas padrão pipeline: O novo pipeline inclui uma estrutura de pastas predefinida e um código de amostra que o senhor pode usar como ponto de partida para o seu pipeline.
Criação simplificada do pipeline: Forneça um nome, um catálogo e um esquema em que as tabelas devem ser criadas por default, e um pipeline é criado usando as configurações de default. Posteriormente, o senhor pode ajustar as configurações na barra de ferramentas do editor de pipeline.

LakeFlow Pipeline declarativo LakeFlow Pipelines Editor

Ativar o editor LakeFlow Pipelines

nota

Se utilizar o recurso com um plano Enterprise, é necessário primeiro ativar o Editor deLakeFlow Pipelines para o seu workspace. Consulte gerenciar Databricks Previews para obter mais informações.

Se a sua camada estiver no perfil de segurança de conformidade, entre em contato com o seu contato Databricks para tentar o recurso.

LakeFlow Pipelines É possível habilitar o Editor de E-mail em várias maneiras:

Ao criar um novo ETL pipeline pipeline declarativo (), habilite o editor em LakeFlow Declarative pipeline ( ) com LakeFlow Pipelines a opção Editor.

A página de configurações avançadas do pipeline é usada na primeira vez em que o editor é ativado. A janela simplificada de criação de pipeline será usada na próxima vez que o senhor criar um novo pipeline.
Para um caderno existente ( pipeline), abra um caderno utilizado em uma pasta de cadernos ( pipeline ) e ative a opção Editor de cadernos (LakeFlow Pipelines ) no cabeçalho. O senhor também pode acessar a página de monitoramento pipeline e clicar em Settings (Configurações ) para ativar o LakeFlow Pipelines Editor.

Após habilitar a opção “LakeFlow Pipelines Editor” , todos os pipelines “ ETL ” utilizarão o editor “ LakeFlow Pipelines ” de default. LakeFlow Pipelines É possível ativar e desativar o Editor de E-mail em massa a partir do editor.

Como alternativa, o senhor pode ativar o LakeFlow Pipelines Editor nas configurações do usuário:

Clique no seu crachá de usuário na área superior direita do site workspace e, em seguida, clique em Settings and Developer .
Ativar a guia para Notebook e arquivos .
Ative o Editor deLakeFlow Pipelines .

Criar um novo pipeline de ETL

Para criar um novo ETL pipeline usando o LakeFlow Pipelines Editor, siga estas etapas:

Na parte superior da barra lateral, clique em New e selecione ETL pipeline .
Na parte superior, o senhor pode dar um nome exclusivo ao seu pipeline.
Logo abaixo do nome, é possível ver o catálogo default e o esquema que foram escolhidos para o senhor. Altere-os para dar ao seu pipeline um padrão diferente.

O default catálogo e o default esquema são de onde o conjunto de dados é lido ou gravado quando o senhor não qualifica o conjunto de dados com um catálogo ou esquema em seu código. Consulte Objetos de banco de dados em Databricks para obter mais informações.
Selecione sua opção preferida para criar um pipeline, escolhendo uma das seguintes opções:
- Comece com o código de exemplo em SQL para criar um novo pipeline e uma estrutura de pastas, incluindo o código de exemplo em SQL.
- Comece com o código de exemplo em Python para criar um novo pipeline e uma estrutura de pastas, incluindo o código de exemplo em Python.
- começar com uma única transformação para criar uma nova pipeline e estrutura de pastas, com um novo arquivo de código em branco.
- Adicione ativos existentes para criar um pipeline que o senhor possa associar a arquivos de código existentes em seu workspace.
O senhor pode ter arquivos de código-fonte SQL e Python em seu pipeline de ETL. Ao criar um novo pipeline e escolher um idioma para o código de amostra, o idioma é apenas para o código de amostra incluído em seu pipeline por default.
Quando o senhor faz a seleção, é redirecionado para o pipeline recém-criado.

O ETL pipeline é criado com as seguintes configurações do default:

O senhor pode ajustar essas configurações na barra de ferramentas do pipeline.

Como alternativa, o senhor pode criar um ETL pipeline a partir do navegador workspace:

Clique em workspace no painel do lado esquerdo.
Selecione qualquer pasta, inclusive as pastas Git.
Clique em Create (Criar ) no canto superior direito e clique em ETL pipeline (Pipeline ETL ).

O senhor também pode criar um ETL pipeline na página Job and pipeline (Trabalho e pipeline):

Em seu site workspace, clique em Jobs & pipeline na barra lateral.
Em New (Novo ), clique em ETL pipeline .

Abrir um pipeline de ETL existente

Para abrir um ETL pipeline existente no LakeFlow Pipelines Editor, siga estas etapas:

Clique em workspace no painel lateral.
Navegue até uma pasta com arquivos de código-fonte para seu pipeline.
Clique no arquivo de código-fonte para abrir o pipeline no editor.

Abrir um pipeline de ETL existente

O senhor também pode abrir um pipeline ETL existente das seguintes maneiras:

Na página Recentes , na barra lateral esquerda, abra um pipeline ou um arquivo configurado como o código-fonte de um pipeline.
Na página de monitoramento do pipeline, clique em Editar pipeline .
Na página Job execução , na barra lateral esquerda, clique em Jobs & pipeline tab e clique em e Edit pipeline .
Ao criar um novo trabalho e adicionar uma tarefa pipeline, o senhor pode clicar em abrir em uma nova tarefa tab ao escolher um pipeline em pipeline .
Ao editar um pipeline, o senhor pode clicar no nome do pipeline na parte superior do navegador ativo para escolher em uma lista de pipelines visualizados recentemente.
Se o senhor abrir um arquivo de código-fonte configurado como código-fonte para um pipeline diferente do navegador ativo, um banner será exibido na parte superior do editor para esse arquivo, solicitando que o senhor abra o pipeline associado. Para abrir um arquivo de código-fonte que não faz parte do site pipeline, selecione Todos os arquivos na parte superior do navegador ativo.

pipeline ativo browser

O LakeFlow Pipelines Editor tem um modo especial para a barra lateral do navegador workspace chamado pipeline ativo browser e, pelo default, concentra o painel no pipeline.

Clique no nome pipeline na parte superior do navegador para alternar entre o pipeline de visualização recente.

O navegador ativo tem duas guias:

pipeline : É aqui que o senhor pode encontrar todos os arquivos associados ao pipeline. Você pode criar, excluir, renomear e organizá-los em pastas.
Todos os arquivos : Todos os outros workspace ativo estão disponíveis aqui.

pipeline ativo browser

O senhor pode ter os seguintes tipos de arquivos no seu pipeline:

Arquivos de código-fonte: Esses arquivos fazem parte da definição do código-fonte do pipeline, que pode ser visto em Configurações . Databricks recomenda sempre armazenar os arquivos de código-fonte dentro da pasta raizpipeline; caso contrário, eles serão exibidos em uma seção de arquivos externos na parte inferior do navegador e terão um conjunto de recursos menos rico.
Arquivos de código não-fonte: Esses arquivos são armazenados dentro da pasta raiz do pipeline, mas não fazem parte da definição do código-fonte do pipeline.

important

O senhor deve usar o navegador pipeline ativo no pipeline tab para gerenciar arquivos e pastas para o seu pipeline. Isso atualizará as configurações do pipeline corretamente. Mover ou renomear arquivos e pastas do navegador workspace ou do All files tab interromperá a configuração do pipeline, e o senhor deverá resolver isso manualmente em Settings .

Pasta raiz

O navegador ativo pipeline está ancorado em uma pasta raiz pipeline. Quando o senhor cria um novo pipeline, a pasta raiz pipeline é criada na pasta do usuário home e recebe o mesmo nome que o nome pipeline.

O senhor pode alterar a pasta raiz no navegador pipeline ativo. Isso é útil se o senhor criou um pipeline em uma pasta e, posteriormente, deseja mover tudo para uma pasta diferente. Por exemplo, o senhor criou o pipeline em uma pasta normal e deseja mover o código-fonte para uma pasta Git para controle de versão.

Clique no menu flutuante da pasta raiz.
Clique em Configurar nova pasta raiz .
Na pasta raiz do pipeline , clique em e escolha outra pasta como a pasta raiz pipeline.
Clique em Salvar .

Alterar a pasta raiz do pipeline

Na pasta raiz, você também pode clicar em Renomear pasta raiz para renomear o nome da pasta. Aqui, o senhor também pode clicar em Move root folder (Mover pasta raiz ) para mover a pasta raiz, por exemplo, para uma pasta Git.

O senhor também pode alterar a pasta raiz do pipeline nas configurações:

Clique em Configurações .
Em Code ativo , clique em Configure paths (Configurar caminhos ).
Clique em para alterar a pasta sob a pasta raiz do pipeline .
Clique em Salvar .

nota

Se o senhor alterar a pasta raiz pipeline, a lista de arquivos exibida pelo navegador ativo pipeline será afetada, pois os arquivos da pasta raiz anterior agora serão exibidos como arquivos externos.

pipeline existente sem pasta raiz

Um pipeline existente criado na experiência de desenvolvimentodefault usando um único Notebook no pipeline declarativo LakeFlow não terá uma pasta raiz configurada. Siga estas etapas para configurar a pasta raiz do pipeline existente:

No navegador pipeline ativo, clique em Configure .
Clique em para selecionar a pasta raiz na pasta raiz do pipeline .
Clique em Salvar .

Não há pasta raiz do pipeline

estrutura de pastas padrão

Quando o senhor cria um novo pipeline, é criada uma estrutura de pastas default. Essa é a estrutura recomendada para organizar os arquivos de código-fonte e não-fonte do pipeline, conforme descrito abaixo.

Um pequeno número de arquivos de código de amostra é criado nessa estrutura de pastas.

Nome da pasta	Local recomendado para esses tipos de arquivos
`<pipeline_root_folder>`	Pasta raiz que contém todas as pastas e arquivos do seu pipeline.
`explorations`	Arquivos de código não-fonte, como Notebook, consultas e arquivos de código usados para análise de dados exploratórios.
`transformations`	Arquivos de código-fonte, como arquivos de código Python ou SQL com definições de tabela.
`utilities`	Arquivos de código não-fonte com módulos Python que podem ser importados de outros arquivos de código. Se o senhor escolher SQL como linguagem para o código de amostra, essa pasta não será criada.

O senhor pode renomear os nomes das pastas ou alterar a estrutura para adequá-la ao seu fluxo de trabalho. Para adicionar uma nova pasta de código-fonte, siga estas etapas:

Clique em Add no navegador pipeline ativo.
Clique em Criar pasta de código-fonte do pipeline .
Insira o nome da pasta e clique em Criar .

Arquivos de código-fonte

Os arquivos de código-fonte fazem parte da definição do código-fonte do pipeline. Quando o senhor executa o pipeline, esses arquivos são avaliados. Os arquivos e pastas que fazem parte da definição do código-fonte têm um ícone especial com um ícone de mini pipeline sobreposto.

Para adicionar um novo arquivo de código-fonte, siga estas etapas:

Clique em Add no navegador pipeline ativo.
Clique em transformações .
Digite um nome para o arquivo e selecione Python ou SQL como a linguagem .
Clique em Criar .

O senhor também pode clicar em para qualquer pasta no navegador pipeline ativo para adicionar um arquivo de código-fonte.

Uma pasta transformations para o código-fonte é criada por default quando o senhor cria um novo pipeline. Essa pasta é o local recomendado para o código-fonte do pipeline, como arquivos de código Python ou SQL com definições de tabela do pipeline.

Arquivos que não são de código-fonte

Os arquivos de código não-fonte são armazenados dentro da pasta raiz do pipeline, mas não fazem parte da definição do código-fonte do pipeline. Esses arquivos não são avaliados quando o senhor executa o pipeline. Arquivos que não são de código-fonte não podem ser arquivos externos.

O senhor pode usar isso para arquivos relacionados ao seu trabalho no pipeline que gostaria de armazenar junto com o código-fonte. Por exemplo:

Notebook que o senhor usa para explorações ad hoc executadas emLakeFlow pipeline declarativo compute fora do ciclo de vida de um pipeline.
Módulos Python que não devem ser avaliados com seu código-fonte, a menos que o senhor importe explicitamente esses módulos dentro dos arquivos de código-fonte.

Para adicionar um novo arquivo que não seja de código-fonte, siga estas etapas:

Clique em Add no navegador pipeline ativo.
Clique em Exploration ou utilidades .
Insira um nome para o arquivo.
Clique em Criar .

O senhor também pode clicar em para a pasta raiz do pipeline ou em um arquivo que não seja de código-fonte para adicionar arquivos que não sejam de código-fonte à pasta.

Quando o senhor cria um novo pipeline, as seguintes pastas para arquivos de código não-fonte são criadas pelo default:

Nome da pasta	Descrição
`explorations`	Essa pasta é o local recomendado para o Notebook, consultas, dashboards e outros arquivos e, em seguida, executá-los em um pipeline não declarativoLakeFlow compute, como o senhor faria normalmente fora do ciclo de vida de execução do pipeline. Importante: eles não devem ser adicionados como código-fonte do pipeline. O site pipeline pode gerar um erro porque esses arquivos provavelmente abrangerão códigos arbitrários não relacionados ao pipeline declarativoLakeFlow.
`utilities`	Essa pasta é o local recomendado para os módulos Python que podem ser importados de outros arquivos por meio de importações diretas expressas como `from <filename> import`, desde que sua pasta principal esteja hierarquicamente abaixo da pasta raiz.

Nome da pasta

Descrição

explorations

Essa pasta é o local recomendado para o Notebook, consultas, dashboards e outros arquivos e, em seguida, executá-los em um pipeline não declarativoLakeFlow compute, como o senhor faria normalmente fora do ciclo de vida de execução do pipeline. Importante: eles não devem ser adicionados como código-fonte do pipeline. O site pipeline pode gerar um erro porque esses arquivos provavelmente abrangerão códigos arbitrários não relacionados ao pipeline declarativoLakeFlow.

utilities

Essa pasta é o local recomendado para os módulos Python que podem ser importados de outros arquivos por meio de importações diretas expressas como from <filename> import, desde que sua pasta principal esteja hierarquicamente abaixo da pasta raiz.

Também é possível importar módulos Python localizados fora da pasta raiz, mas, nesse caso, o senhor deve anexar o caminho da pasta a sys.path no seu código Python:

Python
import sys, os
sys.path.append(os.path.abspath('<alternate_path_for_utilities>/utilities'))
from utils import \*

Arquivos externos

A seção Arquivos externos do navegador de pipeline mostra os arquivos de código-fonte fora da pasta raiz.

Para mover um arquivo externo para a pasta raiz, como a pasta transformations, siga estas etapas:

Clique em para ver o arquivo no navegador ativo e clique em Move (Mover ).
Escolha a pasta para a qual você deseja mover o arquivo e clique em Mover .

Arquivos associados a vários pipelines

Um emblema é exibido no cabeçalho do arquivo se ele estiver associado a mais de um pipeline. Ele tem uma contagem de pipeline associado e permite alternar para os outros.

Seção Todos os arquivos

Além da seção de pipeline , há uma seção All files , na qual é possível abrir qualquer arquivo no site workspace. Aqui você pode:

Abra arquivos fora da pasta raiz em um tab sem sair do LakeFlow Pipelines Editor.
Navegue até os arquivos de código-fonte de outro pipeline e abra-os. Isso abre o arquivo no editor e oferece ao senhor um banner com a opção de mudar o foco no editor para esse segundo pipeline.
Mova os arquivos para a pasta raiz do pipeline.
Incluir arquivos fora da pasta raiz na definição do código-fonte do pipeline.

execução pipeline code

O senhor tem três opções para executar seu código pipeline:

Executar todos os arquivos de código-fonte no pipeline: Clique em executar pipeline ou executar pipeline com tabela completa refresh para executar todas as definições de tabela em todos os arquivos definidos como código-fonte pipeline.

O senhor também pode clicar em Dry execution para validar o site pipeline sem atualizar nenhum dado.
executar o código em um único arquivo: Clique em executar arquivo ou executar arquivo com tabela completa refresh para executar todas as definições de tabela no arquivo atual.
executar o código de uma única tabela: Clique em executar a tabela para obter uma definição de tabela em um arquivo de código-fonte e clique em refresh table (atualizar tabela ) ou Full refresh table (tabela completa ).

Gráfico acíclico direcionado (DAG)

Depois de executar ou validar todos os arquivos de código-fonte no site pipeline, o senhor verá um gráfico acíclico direcionado (DAG). O gráfico mostra o gráfico de dependência da tabela. Cada nó tem diferentes estados ao longo do ciclo de vida do pipeline, como validado, em execução ou erro.

Gráfico acíclico direcionado (DAG)

O senhor pode ativar e desativar o gráfico clicando no ícone do gráfico no painel do lado direito. O senhor também pode maximizar o gráfico. Há opções adicionais no canto inferior direito, incluindo opções de zoom, e More opções para exibir o gráfico em uma disposição vertical ou horizontal.

Passar o mouse sobre um nó exibe uma barra de ferramentas com opções, inclusive refresh a consulta. Clicar com o botão direito do mouse em um nó oferece as mesmas opções em um menu de contexto.

Clicar em um nó mostra a visualização dos dados e a definição da tabela. Quando o senhor edita um arquivo, as tabelas definidas nesse arquivo são destacadas no gráfico.

Pré-visualizações de dados

A seção de visualização de dados mostra dados de amostra de uma tabela selecionada.

O senhor verá uma visualização dos dados da tabela quando clicar em um nó no gráfico acíclico direcionado (DAG).

Se nenhuma tabela tiver sido selecionada, vá para a seção Tables (Tabelas ) e clique em view data preview (visualizar visualização de dados ) . Se você tiver escolhido uma tabela, clique em Todas as tabelas para retornar a todas as tabelas.

Percepções de execução

O senhor pode ver as percepções de execução da tabela sobre a última atualização do pipeline nos painéis na parte inferior do editor.

Painel	Descrição
tabelas	Lista todas as tabelas com seus status e métricas. Se o senhor selecionar uma tabela, verá as métricas e o desempenho dessa tabela e um tab para a visualização dos dados.
Desempenho	Consultar o histórico e os perfis de todos os fluxos neste site pipeline. O senhor pode acessar métricas de execução e planos de consulta detalhados durante e após a execução. Para obter mais informações, consulte o histórico de consultas do Access para LakeFlow Declarative pipeline.
Painel de problemas	Clique no painel para view uma lista simplificada de erros e avisos view para o pipeline. Você pode clicar em uma entrada para ver mais detalhes e, em seguida, navegar até o local no código em que o erro ocorreu. Se o erro estiver em um arquivo diferente do exibido atualmente, isso o redirecionará para o arquivo em que o erro está. Clique em view details (ver detalhes ) para ver a entrada correspondente do evento log para obter detalhes completos. Clique em view logs para ver o evento completo log. Indicadores de erro afixados no código são mostrados para erros associados a uma parte específica do código. Para obter mais detalhes, clique no ícone de erro ou passe o mouse sobre a linha vermelha. Aparece uma janela pop-up com mais informações. Em seguida, clique em Correção rápida para revelar um conjunto de ações para solucionar o erro.
Registro de eventos	Todos os eventos acionados durante a última execução do pipeline. Clique em view logs ou em qualquer entrada na bandeja de problemas.

Configurações do pipeline

Para acessar o painel de configurações pipeline, clique em Settings (Configurações ) na barra de ferramentas ou clique em no mini cartão no navegador pipeline ativo.

Configurações do pipeline

Registro de eventos

O log de eventos do seu pipeline não está disponível até que o senhor o configure em Settings .

Abra as configurações .
Clique na seta ao lado de Configurações avançadas .
Clique em Editar configurações avançadas .
Selecione Publish event log to metastore (Publicar registro de eventos no metastore ).
Forneça um nome, um catálogo e um esquema para o log de eventos.
Clique em Salvar .

Agora, os eventos do pipeline serão publicados na tabela que o senhor especificou.

Meio ambiente

Você pode criar um ambiente para seu código-fonte adicionando dependências nas Configurações .

Abra as configurações .
Em Ambiente , clique em Editar ambiente .
Selecione Adicionar dependência para adicionar uma dependência, como se você a estivesse adicionando a um arquivo requirements.txt. Para obter mais informações sobre dependências, consulte Adicionar dependências ao Notebook.

Databricks Recomenda que o senhor pin a versão com ==. Consulte o pacote PyPI.

O ambiente se aplica a todos os arquivos de código-fonte em seu pipeline.

Notificações

O senhor pode adicionar notificações usando as configurações do pipeline legado .

Abra as configurações .
Na parte inferior do painel de configurações do pipeline , clique em Legacy pipeline settings .
Em Notificações , clique em Adicionar notificação .
Adicione um ou mais endereços email e os eventos que o senhor deseja que sejam enviados.
Clique em Adicionar notificação .

Limitações e problemas conhecidos

Veja as seguintes limitações e problemas conhecidos do editor ETL pipeline em LakeFlow Declarative pipeline:

A barra lateral do navegador workspace não se concentrará no pipeline se o senhor começar abrindo um arquivo na pasta explorations ou em um Notebook, pois esses arquivos ou Notebook não fazem parte da definição do código-fonte pipeline.
1. Para entrar no modo de foco pipeline no navegador workspace, abra um arquivo associado ao pipeline.
As visualizações de dados não são compatíveis com a exibição regular.
A atualização de várias tabelas só pode ser realizada na página de monitoramento pipeline. Use o mini-cartão no navegador do pipeline para navegar até essa página.
A tabela de execução pode aparecer em uma posição incorreta devido à quebra de linha em seu código.
%pip install não é compatível com arquivos (o tipo default ativo com o novo editor). Você pode adicionar dependências nas configurações. Veja Meio Ambiente.

Como alternativa, o senhor pode continuar a usar %pip install de um Notebook associado a um pipeline, em sua definição de código-fonte.

PERGUNTAS FREQUENTES

Por que usar arquivos e não o Notebook para o código-fonte?

A execução baseada em células do Notebook não era compatível com o pipeline LakeFlow Declarative. Portanto, tivemos que desativar o recurso ou alterar seu comportamento, o que gerou confusão.

No LakeFlow Pipelines Editor, o editor de arquivos é usado como base para um editor de primeira classe para o pipeline declarativo LakeFlow. recurso são direcionados explicitamente para o LakeFlow Declarative pipeline, como a tabela de execução , em vez de sobrecarregar o recurso familiar com um comportamento diferente.
Ainda posso usar o Notebook como código-fonte?

Sim, você pode. Entretanto, alguns recursos, como a tabela de execução ou o arquivo de execução , não estarão presentes.

Se o senhor já tiver um pipeline usando o Notebook, ele ainda funcionará no novo editor. No entanto, o site Databricks recomenda a mudança para arquivos para o novo pipeline.
Como posso adicionar um código existente a um pipeline recém-criado?

O senhor pode adicionar arquivos de código-fonte existentes a um novo pipeline. Para adicionar uma pasta com arquivos existentes, siga estas etapas:
1. Clique em Configurações .
2. Em Código-fonte , clique em Configurar caminhos .
3. Clique em Adicionar caminho e escolha a pasta para os arquivos existentes.
4. Clique em Salvar .
Você também pode adicionar arquivos individuais:
1. Clique em All files (Todos os arquivos ) no navegador pipeline ativo.
2. Navegue até seu arquivo, clique em e clique em Include in pipeline (Incluir no pipeline ).
Considere mover esses arquivos para a pasta raiz do pipeline. Se forem deixados fora da pasta raiz do pipeline, eles serão mostrados na seção External files (Arquivos externos ).
Posso gerenciar o código-fonte do pipeline em Git?

É possível gerenciar o código-fonte do pipeline no Git escolhendo uma pasta Git ao criar o pipeline inicialmente. Depois de criar o pipeline sem controle de versão, você pode mover o código-fonte para uma pasta Git. A Databricks recomenda usar a ação do editor para mover toda a pasta raiz para uma pasta Git. Isso atualizará todas as configurações adequadamente. Consulte Pasta raiz.

Para mover a pasta raiz para uma pasta Git no navegador pipeline ativo:
1. Clique para acessar a pasta raiz.
2. Clique em Mover pasta raiz .
3. Escolha um novo local para sua pasta raiz e clique em Mover .
Consulte a seção Pasta raiz para obter mais informações.

Após a mudança, o senhor verá o conhecido ícone do Git ao lado do nome da pasta raiz.

important

Para mover a pasta raiz pipeline, use o navegador ativo pipeline e as etapas acima. Movê-lo de qualquer outra forma interromperá as configurações do pipeline, e o senhor deverá configurar manualmente o caminho correto da pasta em Settings .

Posso ter vários pipelines na mesma pasta raiz?

O senhor pode, mas o site Databricks recomenda ter apenas um único pipeline por pasta raiz.
Quando devo executar uma execução a seco?

Clique em Secar execução para verificar seu código sem atualizar as tabelas.
Quando devo usar a visualização temporária e quando devo usar a visualização materializada em meu código?

Use a visualização temporária quando o senhor não quiser materializar os dados. Por exemplo, essa é uma etapa em uma sequência de etapas para preparar os dados antes de estarem prontos para serem materializados usando uma tabela de transmissão ou materializada view registrada no Catálogo.

O que é o LakeFlow Pipelines Editor?​

Visão geral da interface do usuário do LakeFlow Pipelines Editor​

Ativar o editor LakeFlow Pipelines​

Criar um novo pipeline de ETL​

Abrir um pipeline de ETL existente​

pipeline ativo browser​

Pasta raiz​

pipeline existente sem pasta raiz​

estrutura de pastas padrão​

Arquivos de código-fonte​

Arquivos que não são de código-fonte​

Arquivos externos​

Arquivos associados a vários pipelines​

Seção Todos os arquivos​

execução pipeline code​

Gráfico acíclico direcionado (DAG)​

Pré-visualizações de dados​

Percepções de execução​

Configurações do pipeline​

Registro de eventos​

Meio ambiente​

Notificações​

Limitações e problemas conhecidos​

PERGUNTAS FREQUENTES​

O que é o LakeFlow Pipelines Editor?

Visão geral da interface do usuário do LakeFlow Pipelines Editor

Ativar o editor LakeFlow Pipelines

Criar um novo pipeline de ETL

Abrir um pipeline de ETL existente

pipeline ativo browser

Pasta raiz

pipeline existente sem pasta raiz

estrutura de pastas padrão

Arquivos de código-fonte

Arquivos que não são de código-fonte

Arquivos externos

Arquivos associados a vários pipelines

Seção Todos os arquivos

execução pipeline code

Gráfico acíclico direcionado (DAG)

Pré-visualizações de dados

Percepções de execução

Configurações do pipeline

Registro de eventos

Meio ambiente

Notificações

Limitações e problemas conhecidos

PERGUNTAS FREQUENTES