Pular para o conteúdo principal

Desenvolva e depure o pipeline ETL com o editor de vários arquivos no DLT

info

Beta

Esse recurso está em Beta para o Plano Premium. Para todos os outros planos, esse recurso está em Private Preview. Para experimentá-lo no Private Preview, entre em contato com o seu contato da Databricks.

Este artigo descreve o uso do editor de vários arquivos em DLT para desenvolver e depurar o pipeline ETL (extrair, transformar e carregar). O editor de vários arquivos mostra um pipeline como um conjunto de arquivos no navegador pipeline ativo. O senhor pode editar os arquivos e controlar a configuração do pipeline e os arquivos a serem incluídos em um único local.

Para conhecer a experiência de desenvolvimento do default usando um único Notebook em DLT, consulte Desenvolver e depurar o pipeline do ETL com um Notebook em DLT.

Visão geral do editor de vários arquivos

O editor de vários arquivos ETL pipeline tem o seguinte recurso:

  1. pipeline ativo browser: Criar, excluir, renomear e organizar pipeline ativo.
  2. Editor de código de vários arquivos com guia : Trabalhe em vários arquivos de código associados a um site pipeline.
  3. barra de ferramentas específica do pipeline: Habilita pipeline a pipelineconfiguração do e tem ações de execução no nível do.
  4. Gráfico acíclico dirigido (DAG) interativo: Obtenha uma visão geral de suas tabelas, abra a barra inferior de visualização de dados e execute outras ações relacionadas à tabela.
  5. Visualização de dados: Inspecione os dados de suas tabelas de transmissão e visualização materializada.
  6. Percepções de execução em nível de tabela: Obtenha percepções de execução para todas as tabelas ou para uma única tabela em um pipeline. As percepções referem-se à última execução do pipeline.
  7. Bandeja de erros: Esse recurso resume os erros em todos os arquivos do pipeline e o senhor pode navegar até onde o erro ocorreu em um arquivo específico. Ele complementa os indicadores de erro afixados no código.
  8. Execução seletiva: O editor de código tem recursos para o desenvolvimento passo a passo, como a capacidade de refresh tabelas somente no arquivo atual usando a ação executar arquivo ou uma única tabela.
  9. estrutura de pastas padrão pipeline: O novo pipeline inclui uma estrutura de pastas predefinida e um código de amostra que o senhor pode usar como ponto de partida para o seu pipeline.
  10. Criação simplificada do pipeline: Forneça um nome, um catálogo e um esquema em que as tabelas devem ser criadas por default, e um pipeline é criado usando as configurações de default. Posteriormente, o senhor pode ajustar as configurações na barra de ferramentas do editor de pipeline.

Editor de vários arquivos DLT

Ativar o editor de vários arquivos

nota

Se o senhor usar o recurso no Private Preview, deverá primeiro ativar a experiência de desenvolvedor de vários arquivos do pipeline . Consulte gerenciar Databricks Previews para obter mais informações.

O senhor pode ativar o editor de vários arquivos do pipeline ETL de várias maneiras:

  • Quando o senhor criar um novo ETL pipeline , ative o editor de vários arquivos em DLT com a opção ETL pipeline editor .

    Editor de vários arquivos DLT em conjunto

    A página de configurações avançadas do pipeline é usada na primeira vez que o senhor ativa o editor de vários arquivos. A janela simplificada de criação de pipeline será usada na próxima vez que o senhor criar um novo pipeline.

  • Em um pipeline existente, abra um Notebook usado em um pipeline e ative o botão de alternância do editor de pipelineETL no cabeçalho. O senhor também pode ir para a página de monitoramento do pipeline e clicar em Settings (Configurações ) para ativar o editor de vários arquivos.

Depois que o senhor ativar a alternância do editor do pipelineETL , todos os pipelines ETL usarão o editor de vários arquivos do default. O senhor pode ativar e desativar o editor de vários arquivos do pipeline ETL no editor.

Como alternativa, você pode ativar o editor de vários arquivos nas configurações do usuário:

  1. Clique no seu crachá de usuário na área superior direita do site workspace e, em seguida, clique em Settings and Developer .
  2. Ativar a guia para Notebook e arquivos .
  3. Ativar o editor de vários arquivos do pipelineETL .

Criar um novo pipeline de ETL

Para criar um novo pipeline de ETL usando o editor de vários arquivos, siga estas etapas:

  1. Na parte superior da barra lateral, clique em New e ETL pipeline .

    Criar um novo pipeline de ETL

  2. Em Name (Nome ), digite um nome exclusivo para seu pipeline.

  3. Selecione um catálogo padrão existente e um esquema padrão novo ou existente.

    O default catálogo e o default esquema são os locais de onde o conjunto de dados é lido ou gravado. Consulte Objetos de banco de dados em Databricks para obter mais informações.

  4. Selecione Python ou SQL como a linguagem para o código de amostra .

    O senhor pode ter arquivos de código-fonte SQL e Python em seu pipeline de ETL. Ao criar um novo pipeline e escolher o idioma para o código de amostra , o idioma é apenas para o código de amostra incluído em seu pipeline por default.

  5. Clique em Criar .

    Criar um novo pipeline de ETL

O ETL pipeline é criado com as seguintes configurações do default:

O senhor pode ajustar essas configurações na barra de ferramentas do pipeline ou selecionar Criar pipeline avançado para fornecer suas configurações preferidas. Consulte Configure a DLT pipelinepara obter mais informações.

Como alternativa, o senhor pode criar um ETL pipeline a partir do navegador workspace:

  1. Clique em workspace no painel do lado esquerdo.
  2. Clique em Create (Criar ) no canto superior direito e clique em ETL pipeline (Pipeline ETL ).

O senhor também pode criar um ETL pipeline na página Job and pipeline (Trabalho e pipeline):

  1. Clique em Trabalhos no painel lateral esquerdo.
  2. Clique no pipeline do Jobs & tab.
  3. Clique em Create (Criar ) no canto superior direito e clique em ETL pipeline (Pipeline ETL ).

Abrir um pipeline de ETL existente

Para abrir um pipeline de ETL existente no editor de vários arquivos, siga estas etapas:

  1. Clique em workspace no painel lateral.
  2. Navegue até uma pasta com arquivos de código-fonte para seu pipeline.
  3. Clique no arquivo de código-fonte para abrir o pipeline no editor.

Abrir um pipeline de ETL existente

O senhor também pode abrir um pipeline ETL existente das seguintes maneiras:

  • Abra um arquivo de código-fonte configurado como código-fonte para um pipeline na barra lateral do navegador workspace mostrada ao lado dos editores.
  • Na página Recentes , na barra lateral esquerda, abra um pipeline ou um arquivo configurado como o código-fonte de um pipeline.
  • Na página de monitoramento do pipeline, clique em Editar pipeline .
  • Na página Job execução , na barra lateral esquerda, clique em Jobs & pipeline tab e clique no menu Kebabm e em Edit pipeline .
  • Ao criar um novo trabalho e adicionar uma tarefa pipeline, o senhor pode clicar em abrir em uma nova tarefa tab Ícone da nova guia ao escolher um pipeline em pipeline .

pipeline ativo browser

O editor de vários arquivos pipeline tem um modo especial para a barra lateral do navegador workspace chamado pipeline ativo browser e, por default, concentra o painel no pipeline. Ele tem duas guias:

  • pipeline : É aqui que o senhor pode encontrar todos os arquivos associados ao pipeline. Você pode criar, excluir, renomear e organizá-los em pastas.
  • Todos os arquivos : Todos os outros workspace ativo estão disponíveis aqui.

pipeline ativo browser

O senhor pode ter os seguintes tipos de arquivos no seu pipeline:

  • Arquivos de código-fonte: Esses arquivos fazem parte da definição do código-fonte do pipeline, que pode ser visto em Configurações . Databricks recomenda sempre armazenar os arquivos de código-fonte dentro da pasta raizpipeline; caso contrário, eles serão exibidos em uma seção de arquivos externos na parte inferior do navegador e terão um conjunto de recursos menos rico.
  • Arquivos de código não-fonte: Esses arquivos são armazenados dentro da pasta raiz do pipeline, mas não fazem parte da definição do código-fonte do pipeline.
important

O senhor deve usar o navegador pipeline ativo no pipeline tab para gerenciar arquivos e pastas para o seu pipeline. Isso atualizará as configurações do pipeline corretamente. Mover ou renomear arquivos e pastas do navegador workspace ou do All files tab interromperá a configuração do pipeline, e o senhor deverá resolver isso manualmente em Settings .

Pasta raiz

O navegador ativo pipeline está ancorado em uma pasta raiz pipeline. Quando o senhor cria um novo pipeline, a pasta raiz pipeline é criada na pasta do usuário home e recebe o mesmo nome que o nome pipeline.

O senhor pode alterar a pasta raiz no navegador pipeline ativo. Isso é útil se o senhor quiser usar uma pasta Git para o seu pipeline.

  1. Clique Menu Kebab para acessar a pasta raiz.
  2. Clique em Configurar nova pasta raiz .
  3. Na pasta raiz do pipeline , clique em Ícone de pasta e escolha outra pasta como a pasta raiz pipeline.
  4. Clique em Salvar .

Alterar a pasta raiz do pipeline

Na Menu Kebab pasta raiz, você também pode clicar em Renomear pasta raiz para renomear o nome da pasta. Aqui, o senhor também pode clicar em Move root folder (Mover pasta raiz ) para mover a pasta raiz, por exemplo, para uma pasta Git.

O senhor também pode alterar a pasta raiz do pipeline nas configurações:

  1. Clique em Configurações .
  2. Em Code ativo , clique em Configure paths (Configurar caminhos ).
  3. Clique em Ícone de pasta para alterar a pasta sob a pasta raiz do pipeline .
  4. Clique em Salvar .
nota

Se o senhor alterar a pasta raiz pipeline, a lista de arquivos exibida pelo navegador ativo pipeline será afetada, pois os arquivos da pasta raiz anterior agora serão exibidos como arquivos externos.

pipeline existente sem pasta raiz

Um pipeline existente criado na experiência de desenvolvimentodefault usando um único Notebook em DLT não terá uma pasta raiz configurada. Siga estas etapas para configurar a pasta raiz do pipeline existente:

  1. No navegador pipeline ativo, clique em Configure .
  2. Clique em Ícone de pasta para selecionar a pasta raiz na pasta raiz do pipeline .
  3. Clique em Salvar .

Não há pasta raiz do pipeline

estrutura de pastas padrão

Quando o senhor cria um novo pipeline, é criada uma estrutura de pastas default. Essa é a estrutura recomendada para organizar os arquivos de código-fonte e não-fonte do pipeline, conforme descrito abaixo.

Um pequeno número de arquivos de código de amostra é criado nessa estrutura de pastas.

Nome da pasta

Local recomendado para esses tipos de arquivos

<pipeline_root_folder>

Pasta raiz que contém todas as pastas e arquivos do seu pipeline.

explorations

Arquivos de código não-fonte, como Notebook, consultas e arquivos de código usados para análise de dados exploratórios.

transformations

Arquivos de código-fonte, como arquivos de código Python ou SQL com definições de tabela.

utilities

Arquivos de código não-fonte com módulos Python que podem ser importados de outros arquivos de código. Se o senhor escolher SQL como linguagem para o código de amostra, essa pasta não será criada.

O senhor pode renomear os nomes das pastas ou alterar a estrutura para adequá-la ao seu fluxo de trabalho. Para adicionar uma nova pasta de código-fonte, siga estas etapas:

  1. Clique em Add no navegador pipeline ativo.
  2. Clique em Criar pasta de código-fonte do pipeline .
  3. Insira o nome da pasta e clique em Criar .

Arquivos de código-fonte

Os arquivos de código-fonte fazem parte da definição do código-fonte do pipeline. Quando o senhor executa o pipeline, esses arquivos são avaliados. Os arquivos e pastas que fazem parte da definição do código-fonte têm um ícone especial com um ícone de mini pipeline sobreposto.

Para adicionar um novo arquivo de código-fonte, siga estas etapas:

  1. Clique em Add no navegador pipeline ativo.
  2. Clique em transformações ou fonte de dados .
  3. Digite um nome para o arquivo e selecione Python ou SQL como a linguagem .
  4. Clique em Criar .

O senhor também pode clicar em Menu Kebab para qualquer pasta no navegador pipeline ativo para adicionar um arquivo de código-fonte.

Uma pasta transformations para o código-fonte é criada por default quando o senhor cria um novo pipeline. Quando o senhor adiciona um arquivo de fonte de dados, é criada uma pasta data_sources, caso ela não exista.

Nome da pasta

Descrição

transformations

Essa pasta é o local recomendado para o código-fonte do pipeline, como arquivos de código Python ou SQL com definições de tabela do pipeline. Essa pasta é criada por default quando o senhor cria um novo pipeline.

data_sources

Essa pasta é o local recomendado para o código relacionado à leitura do conjunto de dados de origem, como a criação de visualizações ou o carregamento de dados de arquivos de nuvem. Ele pode ser combinado com os parâmetros de configuração doSpark ou com osDatabricks ativo Bundles (DABs) para alterar o local de onde o pipeline lê, dependendo de várias condições. Por exemplo, o dABS poderia ler diferentes dados de origem em ambientes de desenvolvimento e produção usando uma convenção de caminho de pasta de sources/dev/ e sources/prod/, respectivamente. Essa pasta não é criada pelo site default. Se a pasta não existir, ela será criada quando o senhor clicar em Add e fonte de dados no navegador pipeline ativo para criar um arquivo de fonte de dados.

Arquivos que não são de código-fonte

Os arquivos de código não-fonte são armazenados dentro da pasta raiz do pipeline, mas não fazem parte da definição do código-fonte do pipeline. Esses arquivos não são avaliados quando o senhor executa o pipeline. Arquivos que não são de código-fonte não podem ser arquivos externos.

O senhor pode usar isso para arquivos relacionados ao seu trabalho no pipeline que gostaria de armazenar junto com o código-fonte. Por exemplo:

  • Notebook que o senhor usa para explorações ad hoc executadas em compute não-DLT fora do ciclo de vida de um pipeline.
  • Módulos Python que não devem ser avaliados com seu código-fonte, a menos que o senhor importe explicitamente esses módulos dentro dos arquivos de código-fonte.

Para adicionar um novo arquivo que não seja de código-fonte, siga estas etapas:

  1. Clique em Add no navegador pipeline ativo.
  2. Clique em Exploration ou utilidades .
  3. Insira um nome para o arquivo.
  4. Clique em Criar .

O senhor também pode clicar em Menu Kebab para a pasta raiz do pipeline ou em um arquivo que não seja de código-fonte para adicionar arquivos que não sejam de código-fonte à pasta.

Quando o senhor cria um novo pipeline, as seguintes pastas para arquivos de código não-fonte são criadas pelo default:

Nome da pasta

Descrição

explorations

Essa pasta é o local recomendado para o Notebook, as consultas, os dashboards e outros arquivos e, em seguida, executá-los em um site não-DLT compute, como o senhor faria normalmente fora do ciclo de vida de execução do site pipeline. Importante: eles não devem ser adicionados como código-fonte do pipeline. O pipeline pode gerar um erro porque esses arquivos provavelmente abrangerão códigos arbitrários não-DLT.

utilities

Essa pasta é o local recomendado para os módulos Python que podem ser importados de outros arquivos por meio de importações diretas expressas como from <filename> import, desde que sua pasta principal esteja hierarquicamente abaixo da pasta raiz.

Também é possível importar módulos Python localizados fora da pasta raiz, mas, nesse caso, o senhor deve anexar o caminho da pasta a sys.path no seu código Python:

Python
import sys, os
sys.path.append(os.path.abspath('<alternate_path_for_utilities>/utilities'))
from utils import \*

Arquivos externos

A seção Arquivos externos do navegador de pipeline mostra os arquivos de código-fonte fora da pasta raiz.

Para mover um arquivo externo para a pasta raiz, como a pasta transformations, siga estas etapas:

  1. Clique em Menu Kebab para ver o arquivo no navegador ativo e clique em Move (Mover ).
  2. Escolha a pasta para a qual você deseja mover o arquivo e clique em Mover .

Arquivos associados a vários pipelines

Um emblema é exibido no cabeçalho do arquivo se ele estiver associado a mais de um pipeline. Ele tem uma contagem de pipeline associado e permite alternar para os outros.

Seção Todos os arquivos

Além da seção de pipeline , há uma seção All files , na qual é possível abrir qualquer arquivo no site workspace. Aqui você pode:

  • Abra arquivos fora da pasta raiz em um tab sem sair do editor de vários arquivos.
  • Navegue até os arquivos de código-fonte de outro pipeline e abra-os para focar o editor nesse segundo pipeline.
  • Mova os arquivos para a pasta raiz do pipeline.
  • Incluir arquivos fora da pasta raiz na definição do código-fonte do pipeline.

execução pipeline code

O senhor tem três opções para executar seu código pipeline:

  1. Executar todos os arquivos de código-fonte no pipeline: Clique em executar pipeline ou executar pipeline com tabela completa refresh para executar todas as definições de tabela em todos os arquivos definidos como código-fonte pipeline.

    execução pipeline

    O senhor também pode clicar em Dry execution para validar o site pipeline sem atualizar nenhum dado.

  2. executar o código em um único arquivo: Clique em executar arquivo ou executar arquivo com tabela completa refresh para executar todas as definições de tabela no arquivo atual.

    arquivo de execução

  3. executar o código de uma única tabela: Clique em executar a tabela Ícone da tabela de execução DLT para obter uma definição de tabela em um arquivo de código-fonte e clique em refresh table (atualizar tabela ) ou Full refresh table (tabela completa ).

    mesa de execução

Gráfico acíclico direcionado (DAG)

Depois de executar ou validar todos os arquivos de código-fonte no site pipeline, o senhor verá um gráfico acíclico direcionado (DAG). O gráfico mostra o gráfico de dependência da tabela. Cada nó tem diferentes estados ao longo do ciclo de vida do pipeline, como validado, em execução ou erro.

Gráfico acíclico direcionado (DAG)

O senhor pode ativar e desativar o gráfico clicando no ícone do gráfico no painel do lado direito. Você também pode alterar a orientação para vertical ou horizontal.

Clicar em um nó mostrará a visualização dos dados e a definição da tabela. Quando o senhor edita um arquivo, as tabelas definidas nesse arquivo são destacadas no gráfico.

Pré-visualizações de dados

A seção de visualização de dados mostra dados de amostra de uma tabela selecionada.

O senhor verá uma visualização dos dados da tabela quando clicar em um nó no gráfico acíclico direcionado (DAG).

Se nenhuma tabela tiver sido selecionada, vá para a seção Tables (Tabelas ) e clique em view data preview (visualizar visualização de dados ) DLT Exibir o ícone de visualização de dados. Se você tiver escolhido uma tabela, clique em Todas as tabelas para retornar a todas as tabelas.

Percepções de execução

O senhor pode ver as percepções de execução da tabela sobre a última atualização do pipeline nos painéis na parte inferior do editor.

Painel

Descrição

tabelas

Lista todas as tabelas com seus status e métricas. Se o senhor selecionar uma tabela, verá as métricas e o desempenho dessa tabela e um tab para a visualização dos dados.

Desempenho

Consultar o histórico e os perfis de todos os fluxos neste site pipeline. O senhor pode acessar métricas de execução e planos de consulta detalhados durante e após a execução. Para obter mais informações, consulte o histórico de consultas do Access para o pipeline DLT.

Problemas

Erros e avisos simplificados view. O senhor pode navegar até o evento log a partir dessa bandeja, clicar em uma entrada para ver mais detalhes e, em seguida, navegar até o local no código em que o erro ocorreu. Se o erro estiver em um arquivo diferente do exibido atualmente, isso o redirecionará para o arquivo em que o erro está. Clique em view details (ver detalhes ) para ver a entrada correspondente do evento log para obter detalhes completos. Clique em view logs para ver o evento completo log. Indicadores de erro afixados no código são mostrados para erros associados a uma parte específica do código. Para obter mais detalhes, clique no ícone de erro ou passe o mouse sobre a linha vermelha. Aparece uma janela pop-up com mais informações. Em seguida, clique em Correção rápida para revelar um conjunto de ações para solucionar o erro.

Registro de eventos

Todos os eventos acionados durante a última execução do pipeline. Clique em view logs ou em qualquer erro com código afixado usando a opção Open in logs para navegar nesse painel.

Configurações do pipeline

Para acessar o painel de configurações pipeline, clique em Settings (Configurações ) na barra de ferramentas ou clique em ícone de engrenagem no mini cartão no navegador pipeline ativo.

Configurações do pipeline

Limitações e problemas conhecidos

Veja as seguintes limitações e problemas conhecidos do editor multilinha do pipeline ETL no DLT:

  1. A barra lateral do navegador workspace não se concentrará no pipeline se o senhor começar abrindo um arquivo na pasta explorations ou em um Notebook, pois esses arquivos ou Notebook não fazem parte da definição do código-fonte pipeline.

    1. Para entrar no modo de foco pipeline no navegador workspace, abra um arquivo associado ao pipeline.
  2. As visualizações de dados não são compatíveis com a exibição regular.

  3. As notificações não podem ser definidas na página do editor. Use o link da página de configurações antigas na seção Configurações avançadas.

  4. A atualização de várias tabelas só pode ser realizada na página de monitoramento pipeline. Use o mini-cartão no navegador do pipeline para navegar até essa página.

  5. A tabela de execução Ícone da tabela de execução DLT pode aparecer em uma posição incorreta devido à quebra de linha em seu código.

  6. %pip install não é compatível com arquivos (o tipo default ativo com o novo editor). Usando a definição do código-fonte do pipeline, o senhor pode executar o %pip install a partir de um Notebook. Use Settings (Configurações ) para adicionar um Notebook.

PERGUNTAS FREQUENTES

  1. Por que usar arquivos e não o Notebook para o código-fonte?

    A execução baseada em células do Notebook não era compatível com o site DLT. Portanto, tivemos que desativar o recurso ou alterar seu comportamento, o que gerou confusão.

    No editor de vários arquivos do pipeline ETL, o editor de arquivos é usado como base para um editor de primeira classe para DLT. recurso são direcionados explicitamente para DLT, como a tabela de execução Ícone da tabela de execução DLT, em vez de sobrecarregar o recurso familiar com um comportamento diferente.

  2. Ainda posso usar o Notebook como código-fonte?

    Sim, você pode. Entretanto, alguns recursos, como a tabela de execução Ícone da tabela de execução DLT ou o arquivo de execução , não estarão presentes.

    Se o senhor já tiver um pipeline usando o Notebook, ele ainda funcionará no novo editor. No entanto, o site Databricks recomenda a mudança para arquivos para o novo pipeline.

  3. Como posso adicionar um código existente a um pipeline recém-criado?

    O senhor pode adicionar arquivos de código-fonte existentes a um novo pipeline. Para adicionar uma pasta com arquivos existentes, siga estas etapas:

    1. Clique em Configurações .
    2. Em Código-fonte , clique em Configurar caminhos .
    3. Clique em Adicionar caminho e escolha a pasta para os arquivos existentes.
    4. Clique em Salvar .

    Você também pode adicionar arquivos individuais:

    1. Clique em All files (Todos os arquivos ) no navegador pipeline ativo.
    2. Navegue até seu arquivo, clique em Menu Kebab e clique em Include in pipeline (Incluir no pipeline ).

    Considere mover esses arquivos para a pasta raiz do pipeline. Se forem deixados fora da pasta raiz do pipeline, eles serão mostrados na seção External files (Arquivos externos ).

  4. Posso gerenciar o código-fonte do pipeline em Git?

    O senhor pode mover a pasta raiz para uma pasta Git no navegador pipeline ativo:

    1. Clique Menu Kebab para acessar a pasta raiz.
    2. Clique em Mover pasta raiz .
    3. Escolha um novo local para sua pasta raiz e clique em Mover .

    Consulte a seção Pasta raiz para obter mais informações.

    Após a mudança, o senhor verá o conhecido ícone do Git ao lado do nome da pasta raiz.

important

Para mover a pasta raiz pipeline, use o navegador ativo pipeline e as etapas acima. Movê-lo de qualquer outra forma interromperá as configurações do pipeline, e o senhor deverá configurar manualmente o caminho correto da pasta em Settings .

  1. Posso ter vários pipelines na mesma pasta raiz?

    O senhor pode, mas o site Databricks recomenda ter apenas um único pipeline por pasta raiz.

  2. Quando devo executar uma execução a seco?

    Clique em Secar execução para verificar seu código sem atualizar as tabelas.

  3. Quando devo usar a visualização temporária e quando devo usar a visualização materializada em meu código?

    Use a visualização temporária quando o senhor não quiser materializar os dados. Por exemplo, essa é uma etapa em uma sequência de etapas para preparar os dados antes de estarem prontos para serem materializados usando uma tabela de transmissão ou materializada view registrada no Catálogo.