Desenvolva e depure o pipeline ETL com o editor de vários arquivos no DLT
Beta
Esse recurso está em Beta para o Plano Premium. Para todos os outros planos, esse recurso está em Private Preview. Para experimentá-lo no Private Preview, entre em contato com o seu contato da Databricks.
Este artigo descreve o uso do editor de vários arquivos em DLT para desenvolver e depurar o pipeline ETL (extrair, transformar e carregar). O editor de vários arquivos mostra um pipeline como um conjunto de arquivos no navegador pipeline ativo. O senhor pode editar os arquivos e controlar a configuração do pipeline e os arquivos a serem incluídos em um único local.
Para conhecer a experiência de desenvolvimento do default usando um único Notebook em DLT, consulte Desenvolver e depurar o pipeline do ETL com um Notebook em DLT.
Visão geral do editor de vários arquivos
O editor de vários arquivos ETL pipeline tem o seguinte recurso:
- pipeline ativo browser: Criar, excluir, renomear e organizar pipeline ativo.
- Editor de código de vários arquivos com guia : Trabalhe em vários arquivos de código associados a um site pipeline.
- barra de ferramentas específica do pipeline: Habilita pipeline a pipelineconfiguração do e tem ações de execução no nível do.
- Gráfico acíclico dirigido (DAG) interativo: Obtenha uma visão geral de suas tabelas, abra a barra inferior de visualização de dados e execute outras ações relacionadas à tabela.
- Visualização de dados: Inspecione os dados de suas tabelas de transmissão e visualização materializada.
- Percepções de execução em nível de tabela: Obtenha percepções de execução para todas as tabelas ou para uma única tabela em um pipeline. As percepções referem-se à última execução do pipeline.
- Bandeja de erros: Esse recurso resume os erros em todos os arquivos do pipeline e o senhor pode navegar até onde o erro ocorreu em um arquivo específico. Ele complementa os indicadores de erro afixados no código.
- Execução seletiva: O editor de código tem recursos para o desenvolvimento passo a passo, como a capacidade de refresh tabelas somente no arquivo atual usando a ação executar arquivo ou uma única tabela.
- estrutura de pastas padrão pipeline: O novo pipeline inclui uma estrutura de pastas predefinida e um código de amostra que o senhor pode usar como ponto de partida para o seu pipeline.
- Criação simplificada do pipeline: Forneça um nome, um catálogo e um esquema em que as tabelas devem ser criadas por default, e um pipeline é criado usando as configurações de default. Posteriormente, o senhor pode ajustar as configurações na barra de ferramentas do editor de pipeline.
Ativar o editor de vários arquivos
Se o senhor usar o recurso no Private Preview, deverá primeiro ativar a experiência de desenvolvedor de vários arquivos do pipeline . Consulte gerenciar Databricks Previews para obter mais informações.
O senhor pode ativar o editor de vários arquivos do pipeline ETL de várias maneiras:
-
Quando o senhor criar um novo ETL pipeline , ative o editor de vários arquivos em DLT com a opção ETL pipeline editor .
A página de configurações avançadas do pipeline é usada na primeira vez que o senhor ativa o editor de vários arquivos. A janela simplificada de criação de pipeline será usada na próxima vez que o senhor criar um novo pipeline.
-
Em um pipeline existente, abra um Notebook usado em um pipeline e ative o botão de alternância do editor de pipelineETL no cabeçalho. O senhor também pode ir para a página de monitoramento do pipeline e clicar em Settings (Configurações ) para ativar o editor de vários arquivos.
Depois que o senhor ativar a alternância do editor do pipelineETL , todos os pipelines ETL usarão o editor de vários arquivos do default. O senhor pode ativar e desativar o editor de vários arquivos do pipeline ETL no editor.
Como alternativa, você pode ativar o editor de vários arquivos nas configurações do usuário:
- Clique no seu crachá de usuário na área superior direita do site workspace e, em seguida, clique em Settings and Developer .
- Ativar a guia para Notebook e arquivos .
- Ativar o editor de vários arquivos do pipelineETL .
Criar um novo pipeline de ETL
Para criar um novo pipeline de ETL usando o editor de vários arquivos, siga estas etapas:
-
Na parte superior da barra lateral, clique em New e ETL pipeline .
-
Em Name (Nome ), digite um nome exclusivo para seu pipeline.
-
Selecione um catálogo padrão existente e um esquema padrão novo ou existente.
O default catálogo e o default esquema são os locais de onde o conjunto de dados é lido ou gravado. Consulte Objetos de banco de dados em Databricks para obter mais informações.
-
Selecione Python ou SQL como a linguagem para o código de amostra .
O senhor pode ter arquivos de código-fonte SQL e Python em seu pipeline de ETL. Ao criar um novo pipeline e escolher o idioma para o código de amostra , o idioma é apenas para o código de amostra incluído em seu pipeline por default.
-
Clique em Criar .
O ETL pipeline é criado com as seguintes configurações do default:
O senhor pode ajustar essas configurações na barra de ferramentas do pipeline ou selecionar Criar pipeline avançado para fornecer suas configurações preferidas. Consulte Configure a DLT pipelinepara obter mais informações.
Como alternativa, o senhor pode criar um ETL pipeline a partir do navegador workspace:
- Clique em workspace no painel do lado esquerdo.
- Clique em Create (Criar ) no canto superior direito e clique em ETL pipeline (Pipeline ETL ).
O senhor também pode criar um ETL pipeline na página Job and pipeline (Trabalho e pipeline):
- Clique em Trabalhos no painel lateral esquerdo.
- Clique no pipeline do Jobs & tab.
- Clique em Create (Criar ) no canto superior direito e clique em ETL pipeline (Pipeline ETL ).
Abrir um pipeline de ETL existente
Para abrir um pipeline de ETL existente no editor de vários arquivos, siga estas etapas:
- Clique em workspace no painel lateral.
- Navegue até uma pasta com arquivos de código-fonte para seu pipeline.
- Clique no arquivo de código-fonte para abrir o pipeline no editor.
O senhor também pode abrir um pipeline ETL existente das seguintes maneiras:
- Abra um arquivo de código-fonte configurado como código-fonte para um pipeline na barra lateral do navegador workspace mostrada ao lado dos editores.
- Na página Recentes , na barra lateral esquerda, abra um pipeline ou um arquivo configurado como o código-fonte de um pipeline.
- Na página de monitoramento do pipeline, clique em Editar pipeline .
- Na página Job execução , na barra lateral esquerda, clique em Jobs & pipeline tab e clique no menu Kebabm e em Edit pipeline .
- Ao criar um novo trabalho e adicionar uma tarefa pipeline, o senhor pode clicar em abrir em uma nova tarefa tab
ao escolher um pipeline em pipeline .
pipeline ativo browser
O editor de vários arquivos pipeline tem um modo especial para a barra lateral do navegador workspace chamado pipeline ativo browser e, por default, concentra o painel no pipeline. Ele tem duas guias:
- pipeline : É aqui que o senhor pode encontrar todos os arquivos associados ao pipeline. Você pode criar, excluir, renomear e organizá-los em pastas.
- Todos os arquivos : Todos os outros workspace ativo estão disponíveis aqui.
O senhor pode ter os seguintes tipos de arquivos no seu pipeline:
- Arquivos de código-fonte: Esses arquivos fazem parte da definição do código-fonte do pipeline, que pode ser visto em Configurações . Databricks recomenda sempre armazenar os arquivos de código-fonte dentro da pasta raizpipeline; caso contrário, eles serão exibidos em uma seção de arquivos externos na parte inferior do navegador e terão um conjunto de recursos menos rico.
- Arquivos de código não-fonte: Esses arquivos são armazenados dentro da pasta raiz do pipeline, mas não fazem parte da definição do código-fonte do pipeline.
O senhor deve usar o navegador pipeline ativo no pipeline tab para gerenciar arquivos e pastas para o seu pipeline. Isso atualizará as configurações do pipeline corretamente. Mover ou renomear arquivos e pastas do navegador workspace ou do All files tab interromperá a configuração do pipeline, e o senhor deverá resolver isso manualmente em Settings .
Pasta raiz
O navegador ativo pipeline está ancorado em uma pasta raiz pipeline. Quando o senhor cria um novo pipeline, a pasta raiz pipeline é criada na pasta do usuário home e recebe o mesmo nome que o nome pipeline.
O senhor pode alterar a pasta raiz no navegador pipeline ativo. Isso é útil se o senhor quiser usar uma pasta Git para o seu pipeline.
- Clique
para acessar a pasta raiz.
- Clique em Configurar nova pasta raiz .
- Na pasta raiz do pipeline , clique em
e escolha outra pasta como a pasta raiz pipeline.
- Clique em Salvar .
Na pasta raiz, você também pode clicar em Renomear pasta raiz para renomear o nome da pasta. Aqui, o senhor também pode clicar em Move root folder (Mover pasta raiz ) para mover a pasta raiz, por exemplo, para uma pasta Git.
O senhor também pode alterar a pasta raiz do pipeline nas configurações:
- Clique em Configurações .
- Em Code ativo , clique em Configure paths (Configurar caminhos ).
- Clique em
para alterar a pasta sob a pasta raiz do pipeline .
- Clique em Salvar .
Se o senhor alterar a pasta raiz pipeline, a lista de arquivos exibida pelo navegador ativo pipeline será afetada, pois os arquivos da pasta raiz anterior agora serão exibidos como arquivos externos.
pipeline existente sem pasta raiz
Um pipeline existente criado na experiência de desenvolvimentodefault usando um único Notebook em DLT não terá uma pasta raiz configurada. Siga estas etapas para configurar a pasta raiz do pipeline existente:
- No navegador pipeline ativo, clique em Configure .
- Clique em
para selecionar a pasta raiz na pasta raiz do pipeline .
- Clique em Salvar .
estrutura de pastas padrão
Quando o senhor cria um novo pipeline, é criada uma estrutura de pastas default. Essa é a estrutura recomendada para organizar os arquivos de código-fonte e não-fonte do pipeline, conforme descrito abaixo.
Um pequeno número de arquivos de código de amostra é criado nessa estrutura de pastas.
Nome da pasta | Local recomendado para esses tipos de arquivos |
---|---|
| Pasta raiz que contém todas as pastas e arquivos do seu pipeline. |
| Arquivos de código não-fonte, como Notebook, consultas e arquivos de código usados para análise de dados exploratórios. |
| Arquivos de código-fonte, como arquivos de código Python ou SQL com definições de tabela. |
| Arquivos de código não-fonte com módulos Python que podem ser importados de outros arquivos de código. Se o senhor escolher SQL como linguagem para o código de amostra, essa pasta não será criada. |
O senhor pode renomear os nomes das pastas ou alterar a estrutura para adequá-la ao seu fluxo de trabalho. Para adicionar uma nova pasta de código-fonte, siga estas etapas:
- Clique em Add no navegador pipeline ativo.
- Clique em Criar pasta de código-fonte do pipeline .
- Insira o nome da pasta e clique em Criar .
Arquivos de código-fonte
Os arquivos de código-fonte fazem parte da definição do código-fonte do pipeline. Quando o senhor executa o pipeline, esses arquivos são avaliados. Os arquivos e pastas que fazem parte da definição do código-fonte têm um ícone especial com um ícone de mini pipeline sobreposto.
Para adicionar um novo arquivo de código-fonte, siga estas etapas:
- Clique em Add no navegador pipeline ativo.
- Clique em transformações ou fonte de dados .
- Digite um nome para o arquivo e selecione Python ou SQL como a linguagem .
- Clique em Criar .
O senhor também pode clicar em para qualquer pasta no navegador pipeline ativo para adicionar um arquivo de código-fonte.
Uma pasta transformations
para o código-fonte é criada por default quando o senhor cria um novo pipeline. Quando o senhor adiciona um arquivo de fonte de dados, é criada uma pasta data_sources
, caso ela não exista.
Nome da pasta | Descrição |
---|---|
| Essa pasta é o local recomendado para o código-fonte do pipeline, como arquivos de código Python ou SQL com definições de tabela do pipeline. Essa pasta é criada por default quando o senhor cria um novo pipeline. |
| Essa pasta é o local recomendado para o código relacionado à leitura do conjunto de dados de origem, como a criação de visualizações ou o carregamento de dados de arquivos de nuvem. Ele pode ser combinado com os parâmetros de configuração doSpark ou com osDatabricks ativo Bundles (DABs) para alterar o local de onde o pipeline lê, dependendo de várias condições. Por exemplo, o dABS poderia ler diferentes dados de origem em ambientes de desenvolvimento e produção usando uma convenção de caminho de pasta de |
Arquivos que não são de código-fonte
Os arquivos de código não-fonte são armazenados dentro da pasta raiz do pipeline, mas não fazem parte da definição do código-fonte do pipeline. Esses arquivos não são avaliados quando o senhor executa o pipeline. Arquivos que não são de código-fonte não podem ser arquivos externos.
O senhor pode usar isso para arquivos relacionados ao seu trabalho no pipeline que gostaria de armazenar junto com o código-fonte. Por exemplo:
- Notebook que o senhor usa para explorações ad hoc executadas em compute não-DLT fora do ciclo de vida de um pipeline.
- Módulos Python que não devem ser avaliados com seu código-fonte, a menos que o senhor importe explicitamente esses módulos dentro dos arquivos de código-fonte.
Para adicionar um novo arquivo que não seja de código-fonte, siga estas etapas:
- Clique em Add no navegador pipeline ativo.
- Clique em Exploration ou utilidades .
- Insira um nome para o arquivo.
- Clique em Criar .
O senhor também pode clicar em para a pasta raiz do pipeline ou em um arquivo que não seja de código-fonte para adicionar arquivos que não sejam de código-fonte à pasta.
Quando o senhor cria um novo pipeline, as seguintes pastas para arquivos de código não-fonte são criadas pelo default:
Nome da pasta | Descrição |
---|---|
| Essa pasta é o local recomendado para o Notebook, as consultas, os dashboards e outros arquivos e, em seguida, executá-los em um site não-DLT compute, como o senhor faria normalmente fora do ciclo de vida de execução do site pipeline. Importante: eles não devem ser adicionados como código-fonte do pipeline. O pipeline pode gerar um erro porque esses arquivos provavelmente abrangerão códigos arbitrários não-DLT. |
| Essa pasta é o local recomendado para os módulos Python que podem ser importados de outros arquivos por meio de importações diretas expressas como |
Também é possível importar módulos Python localizados fora da pasta raiz, mas, nesse caso, o senhor deve anexar o caminho da pasta a sys.path
no seu código Python:
import sys, os
sys.path.append(os.path.abspath('<alternate_path_for_utilities>/utilities'))
from utils import \*
Arquivos externos
A seção Arquivos externos do navegador de pipeline mostra os arquivos de código-fonte fora da pasta raiz.
Para mover um arquivo externo para a pasta raiz, como a pasta transformations
, siga estas etapas:
- Clique em
para ver o arquivo no navegador ativo e clique em Move (Mover ).
- Escolha a pasta para a qual você deseja mover o arquivo e clique em Mover .
Arquivos associados a vários pipelines
Um emblema é exibido no cabeçalho do arquivo se ele estiver associado a mais de um pipeline. Ele tem uma contagem de pipeline associado e permite alternar para os outros.
Seção Todos os arquivos
Além da seção de pipeline , há uma seção All files , na qual é possível abrir qualquer arquivo no site workspace. Aqui você pode:
- Abra arquivos fora da pasta raiz em um tab sem sair do editor de vários arquivos.
- Navegue até os arquivos de código-fonte de outro pipeline e abra-os para focar o editor nesse segundo pipeline.
- Mova os arquivos para a pasta raiz do pipeline.
- Incluir arquivos fora da pasta raiz na definição do código-fonte do pipeline.
execução pipeline code
O senhor tem três opções para executar seu código pipeline:
-
Executar todos os arquivos de código-fonte no pipeline: Clique em executar pipeline ou executar pipeline com tabela completa refresh para executar todas as definições de tabela em todos os arquivos definidos como código-fonte pipeline.
O senhor também pode clicar em Dry execution para validar o site pipeline sem atualizar nenhum dado.
-
executar o código em um único arquivo: Clique em executar arquivo ou executar arquivo com tabela completa refresh para executar todas as definições de tabela no arquivo atual.
-
executar o código de uma única tabela: Clique em executar a tabela
para obter uma definição de tabela em um arquivo de código-fonte e clique em refresh table (atualizar tabela ) ou Full refresh table (tabela completa ).
Gráfico acíclico direcionado (DAG)
Depois de executar ou validar todos os arquivos de código-fonte no site pipeline, o senhor verá um gráfico acíclico direcionado (DAG). O gráfico mostra o gráfico de dependência da tabela. Cada nó tem diferentes estados ao longo do ciclo de vida do pipeline, como validado, em execução ou erro.
O senhor pode ativar e desativar o gráfico clicando no ícone do gráfico no painel do lado direito. Você também pode alterar a orientação para vertical ou horizontal.
Clicar em um nó mostrará a visualização dos dados e a definição da tabela. Quando o senhor edita um arquivo, as tabelas definidas nesse arquivo são destacadas no gráfico.
Pré-visualizações de dados
A seção de visualização de dados mostra dados de amostra de uma tabela selecionada.
O senhor verá uma visualização dos dados da tabela quando clicar em um nó no gráfico acíclico direcionado (DAG).
Se nenhuma tabela tiver sido selecionada, vá para a seção Tables (Tabelas ) e clique em view data preview (visualizar visualização de dados ) . Se você tiver escolhido uma tabela, clique em Todas as tabelas para retornar a todas as tabelas.
Percepções de execução
O senhor pode ver as percepções de execução da tabela sobre a última atualização do pipeline nos painéis na parte inferior do editor.
Painel | Descrição |
---|---|
tabelas | Lista todas as tabelas com seus status e métricas. Se o senhor selecionar uma tabela, verá as métricas e o desempenho dessa tabela e um tab para a visualização dos dados. |
Desempenho | Consultar o histórico e os perfis de todos os fluxos neste site pipeline. O senhor pode acessar métricas de execução e planos de consulta detalhados durante e após a execução. Para obter mais informações, consulte o histórico de consultas do Access para o pipeline DLT. |
Problemas | Erros e avisos simplificados view. O senhor pode navegar até o evento log a partir dessa bandeja, clicar em uma entrada para ver mais detalhes e, em seguida, navegar até o local no código em que o erro ocorreu. Se o erro estiver em um arquivo diferente do exibido atualmente, isso o redirecionará para o arquivo em que o erro está. Clique em view details (ver detalhes ) para ver a entrada correspondente do evento log para obter detalhes completos. Clique em view logs para ver o evento completo log. Indicadores de erro afixados no código são mostrados para erros associados a uma parte específica do código. Para obter mais detalhes, clique no ícone de erro ou passe o mouse sobre a linha vermelha. Aparece uma janela pop-up com mais informações. Em seguida, clique em Correção rápida para revelar um conjunto de ações para solucionar o erro. |
Registro de eventos | Todos os eventos acionados durante a última execução do pipeline. Clique em view logs ou em qualquer erro com código afixado usando a opção Open in logs para navegar nesse painel. |
Configurações do pipeline
Para acessar o painel de configurações pipeline, clique em Settings (Configurações ) na barra de ferramentas ou clique em no mini cartão no navegador pipeline ativo.
Limitações e problemas conhecidos
Veja as seguintes limitações e problemas conhecidos do editor multilinha do pipeline ETL no DLT:
-
A barra lateral do navegador workspace não se concentrará no pipeline se o senhor começar abrindo um arquivo na pasta
explorations
ou em um Notebook, pois esses arquivos ou Notebook não fazem parte da definição do código-fonte pipeline.- Para entrar no modo de foco pipeline no navegador workspace, abra um arquivo associado ao pipeline.
-
As visualizações de dados não são compatíveis com a exibição regular.
-
As notificações não podem ser definidas na página do editor. Use o link da página de configurações antigas na seção Configurações avançadas.
-
A atualização de várias tabelas só pode ser realizada na página de monitoramento pipeline. Use o mini-cartão no navegador do pipeline para navegar até essa página.
-
A tabela de execução
pode aparecer em uma posição incorreta devido à quebra de linha em seu código.
-
%pip install
não é compatível com arquivos (o tipo default ativo com o novo editor). Usando a definição do código-fonte do pipeline, o senhor pode executar o%pip install
a partir de um Notebook. Use Settings (Configurações ) para adicionar um Notebook.
PERGUNTAS FREQUENTES
-
Por que usar arquivos e não o Notebook para o código-fonte?
A execução baseada em células do Notebook não era compatível com o site DLT. Portanto, tivemos que desativar o recurso ou alterar seu comportamento, o que gerou confusão.
No editor de vários arquivos do pipeline ETL, o editor de arquivos é usado como base para um editor de primeira classe para DLT. recurso são direcionados explicitamente para DLT, como a tabela de execução
, em vez de sobrecarregar o recurso familiar com um comportamento diferente.
-
Ainda posso usar o Notebook como código-fonte?
Sim, você pode. Entretanto, alguns recursos, como a tabela de execução
ou o arquivo de execução , não estarão presentes.
Se o senhor já tiver um pipeline usando o Notebook, ele ainda funcionará no novo editor. No entanto, o site Databricks recomenda a mudança para arquivos para o novo pipeline.
-
Como posso adicionar um código existente a um pipeline recém-criado?
O senhor pode adicionar arquivos de código-fonte existentes a um novo pipeline. Para adicionar uma pasta com arquivos existentes, siga estas etapas:
- Clique em Configurações .
- Em Código-fonte , clique em Configurar caminhos .
- Clique em Adicionar caminho e escolha a pasta para os arquivos existentes.
- Clique em Salvar .
Você também pode adicionar arquivos individuais:
- Clique em All files (Todos os arquivos ) no navegador pipeline ativo.
- Navegue até seu arquivo, clique em
e clique em Include in pipeline (Incluir no pipeline ).
Considere mover esses arquivos para a pasta raiz do pipeline. Se forem deixados fora da pasta raiz do pipeline, eles serão mostrados na seção External files (Arquivos externos ).
-
Posso gerenciar o código-fonte do pipeline em Git?
O senhor pode mover a pasta raiz para uma pasta Git no navegador pipeline ativo:
- Clique
para acessar a pasta raiz.
- Clique em Mover pasta raiz .
- Escolha um novo local para sua pasta raiz e clique em Mover .
Consulte a seção Pasta raiz para obter mais informações.
Após a mudança, o senhor verá o conhecido ícone do Git ao lado do nome da pasta raiz.
- Clique
Para mover a pasta raiz pipeline, use o navegador ativo pipeline e as etapas acima. Movê-lo de qualquer outra forma interromperá as configurações do pipeline, e o senhor deverá configurar manualmente o caminho correto da pasta em Settings .
-
Posso ter vários pipelines na mesma pasta raiz?
O senhor pode, mas o site Databricks recomenda ter apenas um único pipeline por pasta raiz.
-
Quando devo executar uma execução a seco?
Clique em Secar execução para verificar seu código sem atualizar as tabelas.
-
Quando devo usar a visualização temporária e quando devo usar a visualização materializada em meu código?
Use a visualização temporária quando o senhor não quiser materializar os dados. Por exemplo, essa é uma etapa em uma sequência de etapas para preparar os dados antes de estarem prontos para serem materializados usando uma tabela de transmissão ou materializada view registrada no Catálogo.