Pular para o conteúdo principal

Desenvolver e depurar pipeline ETL com o LakeFlow Pipelines Editor

Este artigo descreve como usar o Editor LakeFlow Pipelines para desenvolver e depurar um pipeline ETL (extração, transformação e carregamento) em um pipeline declarativo Spark (SDP) LakeFlow .

O que é o LakeFlow Pipelines Editor?

O LakeFlow Pipelines Editor é um IDE criado para o desenvolvimento de pipelines. Ele combina todas as tarefas de desenvolvimento pipeline em uma única superfície, suportando fluxo de trabalho "code-first", organização de código baseada em pastas, execução seletiva, pré-visualizações de dados e visualização gráfica pipeline . Integrado à plataforma Databricks , também permite controle de versão, revisões de código e execução agendada.

Visão geral da interface do usuário do editor LakeFlow Pipelines

A imagem a seguir mostra o Editor LakeFlow Pipelines :

Editor LakeFlow Pipelines

A imagem mostra o seguinte recurso:

  1. Navegador pipeline ativo: Crie, exclua, renomeie e organize pipeline ativo. Inclui também atalhos para configuração de pipeline.
  2. Editor de código de vários arquivos com guia: trabalhe em vários arquivos de código associados a um pipeline.
  3. barra de ferramentas específica do pipeline: inclui opções de configuração pipeline e possui ações de execução no nívelpipeline.
  4. Gráfico interativo pipeline: Obtenha uma visão geral das suas tabelas, abra a barra inferior de pré-visualização de dados e execute outras ações relacionadas às tabelas.
  5. Percepções de execução em nível de tabela: obtenha percepções de execução para todas as tabelas ou uma única tabela em um pipeline. As percepções referem-se à última execução pipeline .
  6. Painel de problemas: Este recurso resume erros, avisos e observações em todos os arquivos do pipeline, e você pode navegar até onde o erro ocorreu dentro de um arquivo específico. Complementa os indicadores de erro anexados ao código.
  7. Execução seletiva: O editor de código possui recursos para desenvolvimento passo a passo, como a capacidade de refresh apenas as tabelas no arquivo atual usando a ação de execução de arquivo , ou de refresh uma única tabela.
  8. Ícone do código do gênio brilhante. Genie Code: Crie, atualize e depure seu pipeline usando Genie Code, uma experiência orientada a agentes que automatiza o fluxo de trabalho em várias etapas, desde a descoberta de dados e geração de código até a execução pipeline e a resolução de problemas de qualidade de dados.

Outro recurso importante:

Criar um novo pipeline ETL

Para criar um novo pipeline ETL usando o LakeFlow Pipelines Editor, siga estes passos:

  1. Na parte superior da barra lateral, clique em Ícone de mais. Novo e então selecione Ícone de pipeline. pipelineETL .

    Um pipeline é criado automaticamente com as seguintes configurações default :

    Você pode ajustar essas configurações na barra de ferramentas do pipeline.

  2. Na parte superior, dê um nome exclusivo ao seu pipeline.

  3. Ao lado do nome, são exibidos o catálogo e o esquema default escolhidos para você.

    O catálogo default e o esquema default são onde os conjuntos de dados são lidos ou gravados quando você não qualifica o conjunto de dados com um catálogo ou esquema no seu código. Consulte Objetos de banco de dados em Databricks para obter mais informações.

    Clique no catálogo e no esquema para alterar o padrão do seu pipeline.

  4. Seu pipeline possui um arquivo my_transformation em branco por default. Alterne entre os idiomas Python e SQL selecionando-os na lista suspensa de idiomas. Escreva o código diretamente neste arquivo ou escolha uma das seguintes opções para começar rapidamente:

    • Ícone do código do gênio brilhante. Crie com o Genie Code : Descreva seu pipeline usando linguagem natural e deixe o Genie Code construí-lo para você.
    • Utilize o código de exemplo : Crie uma estrutura de pastas default e um código de exemplo na linguagem do arquivo atual.

    Para opções mais avançadas, expanda o Ícone do menu de kebab. menu (à direita do Ícone de código. Use o botão de código de exemplo para:

    • Adicionar código-fonte existente : Associe seu pipeline a arquivos de código já disponíveis em seu workspace, incluindo pastas Git .
    • Configurar com controle de versão : Utilize um projeto Declarative Automation Bundles para controle de versão e suporte a CI/CD.
    • Usar Hive metastore : Criar um pipeline com configurações legadas.

Como alternativa, você pode criar um pipeline ETL no navegador workspace :

  1. Clique em área de trabalho no painel lateral esquerdo.
  2. Selecione qualquer pasta, incluindo pastas do Git.
  3. Clique em Criar no canto superior direito e clique em pipelineETL .

Você também pode criar um pipeline ETL na página Trabalho e pipeline:

  1. No seu workspace, clique em ícone fluxo de trabalho. Empregos e pipeline na barra lateral.
  2. Em Novo , clique em PipelineETL .
dica

A CLI Databricks fornece comandos para criar, modificar e gerenciar seu pipeline declarativo LakeFlow Spark a partir de um terminal. Veja pipelines grupo de comandos.

Abra um pipeline ETL existente

Há várias maneiras de abrir um pipeline ETL existente no Editor LakeFlow Pipelines :

  • Abra qualquer arquivo de origem associado ao pipeline:

    1. Clique em área de trabalho no painel lateral.
    2. Navegue até uma pasta com arquivos de código-fonte para seu pipeline.
    3. Clique no arquivo de código-fonte para abrir o pipeline no editor.
  • Abra um pipeline editado recentemente:

    • No editor, você pode navegar para outro pipeline que editou recentemente clicando no nome do pipeline na parte superior do navegador ativo e escolhendo outro pipeline na lista de recentes que aparece.
    • Fora do editor, na página Recentes na barra lateral esquerda, abra um pipeline ou um arquivo configurado como código-fonte para um pipeline.
  • Ao visualizar um pipeline no produto, você pode optar por editá pipeline:

    • Na página de monitoramento do pipeline, clique em Ícone de lápis. Editar pipeline .
    • Na página "Empregos e oportunidades" na barra lateral esquerda, clique em Ícone de lápis. para editar o pipeline.
    • Ao editar um trabalho e adicionar uma tarefa pipeline , você pode clicar em ícone abrir em nova tab botão quando você escolhe um pipeline em pipeline .
  • Se você estiver navegando por todos os arquivos no navegador ativo e abrir um arquivo de código-fonte de outro pipeline, um banner será exibido na parte superior do editor, solicitando que você abra o pipeline associado.

Ao editar um pipeline, a barra lateral workspace à esquerda utiliza um modo especial chamado navegador ativopipeline . Por default, o navegador ativo pipeline se concentra na raiz pipeline e nas pastas e arquivos dentro da raiz. Você também pode optar por view Todos os arquivos para ver os arquivos que estão fora da raiz do pipeline. A aba aberta no editor pipeline durante a edição de um pipeline específico é memorizada e, ao alternar para outro pipeline, a aba aberta na última vez em que você editou esse pipeline é restaurada.

nota

O editor também tem contextos para editar arquivos SQL (chamado Databricks SQL Editor ) e um contexto geral para editar arquivos de workspace que não são arquivos SQL ou arquivos pipeline . Cada um desses contextos lembra e restaura a aba que você tinha aberta na última vez que usou esse contexto. Você pode alternar o contexto na parte superior da barra lateral esquerda. Clique no cabeçalho para escolher entre espaço de trabalho, Editor SQL ou pipeline editado recentemente.

Alternando contextos do editor

Quando você abre um arquivo na página do navegador do espaço de trabalho, ele é aberto no editor correspondente àquele arquivo. Se o arquivo estiver associado a um pipeline, esse é o Editor LakeFlow Pipelines .

Para abrir um arquivo que não faz parte do pipeline, mas mantém o contexto pipeline , abra o arquivo na tab Todos os arquivos do navegador ativo.

O navegador ativo pipeline tem duas abas:

  • pipeline : aqui é onde você pode encontrar todos os arquivos associados ao pipeline. Você pode criar, excluir, renomear e organizá-los em pastas. Esta tab também inclui atalhos para configuração pipeline e uma view gráfica da execução recente.
  • Todos os arquivos : Todos os outros workspace ativos estão disponíveis aqui. Isso pode ser útil para encontrar arquivos a serem adicionados ao pipeline ou para visualizar outros arquivos relacionados ao pipeline, como um arquivo YAML que define um Declarative Automation Bundle.

navegador ativo do pipeline

Você pode ter os seguintes tipos de arquivos em seu pipeline:

  • Arquivos de código-fonte: esses arquivos fazem parte da definição de código-fonte do pipeline, que pode ser vista em Configurações . Databricks recomenda sempre armazenar os arquivos de código-fonte dentro da pasta raizpipeline; caso contrário, eles serão exibidos em uma seção de arquivo externo na parte inferior do navegador e terão um conjunto de recursos menos rico.
  • Arquivos de código não-fonte: esses arquivos são armazenados dentro da pasta raiz do pipeline, mas não fazem parte da definição do código-fonte do pipeline.
importante

Você deve usar o navegador ativo pipeline , localizado na tab do pipeline , para gerenciar arquivos e pastas do seu pipeline. Isso atualiza as configurações do pipeline corretamente. Mover ou renomear arquivos e pastas no navegador do seu workspace ou na tab Todos os arquivos quebra a configuração pipeline , e você deverá resolver isso manualmente nas Configurações .

Pasta raiz

O navegador ativo pipeline está ancorado em uma pasta raiz pipeline . Ao criar um novo pipeline, a pasta raiz pipeline é criada no diretório inicial do seu usuário.

Você pode alterar a pasta raiz no navegador ativo pipeline . Isso é útil se você criou um pipeline em uma pasta e depois deseja mover tudo para uma pasta diferente. Por exemplo, você criou o pipeline em uma pasta normal e deseja mover o código-fonte para uma pasta Git para controle de versão.

  1. Clique no Ícone do menu de kebab. menu de estouro para a pasta raiz.
  2. Clique em Configurar nova pasta raiz .
  3. Na pasta raiz do pipeline, clique em Ícone de pasta e escolha outra pasta como pasta raiz pipeline .
  4. Clique em Salvar .

Alterar pasta raiz do pipeline

No Ícone do menu de kebab. para a pasta raiz, você também pode clicar em Renomear pasta raiz para renomear o nome da pasta. Aqui, você também pode clicar em Mover pasta raiz para mover a pasta raiz, por exemplo, para uma pasta Git.

Você também pode alterar a pasta raiz do pipeline nas configurações:

  1. Clique em Configurações .
  2. Em Código ativo, clique em Configurar caminhos .
  3. Clique Ícone de pasta para alterar a pasta na pasta raiz do pipeline .
  4. Clique em Salvar .
nota

Se você alterar a pasta raiz pipeline , a lista de arquivos exibida pelo navegador ativo pipeline será afetada, pois os arquivos na pasta raiz anterior serão exibidos como arquivos externos.

pipeline existente sem pasta raiz

Um pipeline existente criado usando a experiência de edição de Notebook legada não terá uma pasta raiz configurada. Ao abrir um pipeline que não possui uma pasta raiz configurada, se desejar configurar a pasta raiz para o seu pipeline, siga estes passos:

  1. No navegador ativo pipeline , clique em Configurar .
  2. Clique Ícone de pasta para selecionar a pasta raiz em pasta raiz do pipeline .
  3. Clique em Salvar .

Nenhuma pasta raiz do pipeline

estrutura de pasta padrão

Quando você cria um novo pipeline, uma estrutura de pastas default é criada. Esta é a estrutura recomendada para organizar seus arquivos de código-fonte e não-fonte do pipeline, conforme descrito abaixo.

Um pequeno número de arquivos de código de exemplo é criado nesta estrutura de pastas.

Nome da pasta

Local recomendado para esses tipos de arquivos

<pipeline_root_folder>

Pasta raiz que contém todas as pastas e arquivos do seu pipeline.

transformations

Arquivos de código-fonte, como arquivos de código Python ou SQL com definições de tabela.

explorations

Arquivos de código não-fonte, como Notebook, consultas e arquivos de código usados para análise exploratória de dados.

utilities

Arquivos de código não-fonte com módulos Python que podem ser importados de outros arquivos de código. Se você escolher SQL como sua linguagem para código de exemplo, esta pasta não será criada.

Você pode renomear os nomes das pastas ou alterar a estrutura para adequá-los ao seu fluxo de trabalho. Para adicionar uma nova pasta de código-fonte, siga estes passos:

  1. Clique em Adicionar no navegador pipeline ativo.
  2. Clique em Criar pasta de código-fonte do pipeline .
  3. Digite um nome de pasta e clique em Criar .

Arquivos de código-fonte

Os arquivos de código-fonte fazem parte da definição de código-fonte do pipeline. Quando você executa o pipeline, esses arquivos são avaliados. Arquivos e pastas que fazem parte da definição do código-fonte têm um ícone especial com um mini ícone de pipeline sobreposto.

Para adicionar um novo arquivo de código-fonte:

  1. Clique Ícone de mais. próximo à pasta raiz.
  2. Clique em transformações .
  3. Digite um nome para o arquivo e selecione Python ou SQL como linguagem .
  4. Clique em Criar .

Use os auxiliares embutidos para começar a escrever código usando Ícone do código do gênio brilhante. Gere Genie Code ou pequenos trechos de código para o tipo de dataset desejado (por exemplo, view materializada ou tabela de transmissão).

Uma pasta transformations para código-fonte é criada por default quando você cria um novo pipeline. Esta pasta é o local recomendado para o código-fonte do pipeline, como arquivos de código Python ou SQL com definições de tabela de pipeline.

Arquivos que não são de código fonte

Arquivos que não são de código-fonte são armazenados dentro da pasta raiz do pipeline, mas não fazem parte da definição do código-fonte do pipeline. Esses arquivos não são avaliados quando você executa o pipeline. Arquivos que não sejam de código-fonte não podem ser arquivos externos.

Você pode usar isso para arquivos relacionados ao seu trabalho no pipeline que você gostaria de armazenar junto com o código-fonte. Por exemplo:

  • Notebook que você usa para explorações ad hoc executadas em compute de pipeline declarativa Spark nãoLakeFlow fora do ciclo de vida de um pipeline.
  • Módulos Python que não devem ser avaliados com seu código-fonte, a menos que você importe explicitamente esses módulos dentro dos seus arquivos de código-fonte.

Para adicionar um novo arquivo que não seja de código-fonte:

  1. Clique Ícone de mais. próximo à pasta raiz.
  2. Clique em Exploração ou Russas .
  3. Digite um nome para o arquivo.
  4. Clique em Criar .

Quando você cria um novo pipeline, as seguintes pastas para arquivos que não são de código-fonte são criadas por default:

Nome da pasta

Descrição

explorations

Esta pasta é o local recomendado para notebooks, consultas, dashboards e outros arquivos, para posterior execução em um pipeline de compute Spark Declarative que não sejaLakeFlow , como você faria normalmente fora do ciclo de vida de execução de um pipeline.

utilities

Esta pasta é o local recomendado para módulos Python que podem ser importados de outros arquivos por meio de importações diretas expressas como from <filename> import, desde que sua pasta pai esteja hierarquicamente abaixo da pasta raiz.

Você também pode importar módulos Python localizados fora da pasta raiz, mas nesse caso, você deve anexar o caminho da pasta a sys.path no seu código Python:

Python
import sys, os
sys.path.append(os.path.abspath('<alternate_path_for_utilities>/utilities'))
from utils import \*

Arquivos externos

A seção Arquivos externos do navegador de pipeline mostra arquivos de código-fonte fora da pasta raiz.

Para mover um arquivo externo para a pasta raiz, como a pasta transformations , siga estes passos:

  1. Clique Ícone do menu de kebab. para o arquivo no navegador ativo e clique em Mover .
  2. Escolha a pasta para a qual deseja mover o arquivo e clique em Mover .

Arquivos associados a vários pipelines

Um emblema é exibido no cabeçalho do arquivo se um arquivo estiver associado a mais de um pipeline. Ele tem uma contagem de pipelines associados e permite alternar para outros.

Seção Todos os arquivos

Além da seção pipeline , há uma seção Todos os arquivos , onde você pode abrir qualquer arquivo no seu workspace. Aqui você pode:

  • Abra arquivos fora da pasta raiz em uma tab sem sair do Editor LakeFlow Pipelines .
  • Navegue até os arquivos de código-fonte de outro pipeline e abra-os. Isso abre o arquivo no editor e exibe um banner com a opção de alternar o foco no editor para esse segundo pipeline.
  • Mova os arquivos para a pasta raiz do pipeline.
  • Inclua arquivos fora da pasta raiz na definição do código-fonte do pipeline.

Editar arquivos de origem do pipeline

Ao abrir um arquivo de origem pipeline no navegador workspace ou no navegador ativo pipeline , ele é aberto em uma tab do editor no Editor LakeFlow Pipelines . Abrir vários arquivos simultaneamente abre uma nova aba, permitindo editar diversos arquivos ao mesmo tempo.

nota

Abrir um arquivo que não está associado a um pipeline no navegador workspace abrirá o editor em um contexto diferente (o editor geral do espaço de trabalho ou, para arquivos SQL , o EditorSQL ).

Quando você abre um arquivo que não épipeline tab Todos os arquivos do navegador ativo do pipeline , ele é aberto em uma nova tab no contexto pipeline .

O código-fonte do pipeline inclui vários arquivos. Por default , os arquivos de origem estão na pasta transformações do navegador ativo pipeline . Os arquivos de código-fonte podem ser arquivos Python ( *.py ) ou SQL ( *.sql ). Sua fonte pode incluir uma combinação de arquivos Python e SQL em um único pipeline, e o código em um arquivo pode fazer referência a uma tabela ou view definida em outro arquivo.

Você também pode incluir arquivos markdown ( *.md ) na sua pasta de transformações . Arquivos Markdown podem ser usados para documentação ou notas, mas são ignorados ao executar uma atualização de pipeline.

Os recursos a seguir são específicos para o LakeFlow Pipelines Editor:

Editar código do pipeline

  1. Conectar : Conecte-se a um compute serverless ou clássico para executar o pipeline. Todos os arquivos associados ao pipeline usam a mesma conexão compute ; portanto, uma vez conectado, você não precisa se conectar para outros arquivos no mesmo pipeline. Para obter mais informações sobre opções compute , consulte opções de configuração de computação.

    Para arquivos que não sejampipeline , como um Notebook exploratório, a opção de conexão está disponível, mas se aplica somente a esse arquivo individual.

  2. arquivo de execução : executa o código para atualizar as tabelas definidas neste arquivo fonte. A próxima seção descreve diferentes maneiras de executar o código do seu pipeline .

  3. Editar : Use o Ícone do código do gênio brilhante. Genie Code para editar ou adicionar código ao arquivo.

  4. Solução rápida : Use Ícone do código do gênio brilhante. Genie Code para corrigir erros ou agir sobre eles em seu código.

O painel inferior também se ajusta com base na tab atual. A visualização de informações pipeline no painel inferior está sempre disponível. Arquivos não associadospipeline , como arquivos do editor SQL , também mostram sua saída no painel inferior em uma tab separada. A imagem a seguir mostra um seletor tab verticais para alternar o painel inferior entre a visualização de informações pipeline ou informações do Notebook selecionado.

Seletor tab verticais para o Notebook exploratório

código de execução pipeline

Você tem quatro opções para executar seu código pipeline :

  1. executar todos os arquivos de código-fonte no pipeline

    Clique em executar pipeline ou executar pipeline com refreshcompleta da tabela para executar todas as definições de tabela em todos os arquivos definidos como código-fonte pipeline . Para obter detalhes sobre os tipos de refresh , consulte semântica refresh do pipeline.

    execução pipeline

    Você também pode clicar em Executar a seco para validar o pipeline sem atualizar nenhum dado.

  2. execução do código em um único arquivo

    Clique em arquivo de execução ou arquivo de execução com refreshcompleta da tabela para executar todas as definições de tabela no arquivo atual. Outros arquivos no pipeline não são avaliados.

    arquivo de execução

    Esta opção é útil para depuração ao editar e iterar rapidamente em um arquivo. Há efeitos colaterais ao executar o código em apenas um arquivo.

    • Quando outros arquivos não são avaliados, erros nesses arquivos não são encontrados.
    • Tabelas materializadas em outros arquivos usam a materialização mais recente da tabela, mesmo que haja dados de origem mais recentes.
    • Você pode executar em erros se uma tabela referenciada ainda não tiver sido materializada.
    • O gráfico do pipeline pode estar incorreto ou desconexo para tabelas em outros arquivos que ainda não foram materializados. Databricks faz o possível para manter o gráfico correto, mas não avalia outros arquivos para fazer o mesmo.

    Quando você terminar de testar e editar um arquivo, Databricks recomenda executar todos os arquivos de código-fonte no pipeline para verificar se o pipeline funciona de ponta a ponta antes de colocá pipeline em produção.

  3. execução do código para uma única tabela

    Ao lado da definição de uma tabela no arquivo de código-fonte, clique no ícone da tabela de execução Ícone de tabela de execução e então escolha Atualizar tabela ou refresh tabela completa no menu suspenso. Executar o código para uma única tabela tem efeitos colaterais semelhantes aos de executar o código em um único arquivo.

    tabela de execução

nota

A execução do código para uma única tabela está disponível para tabelas de transmissão e visualização materializada. Pias e visualizações não são suportadas.

  1. execução do código para um conjunto de tabelas

    Você pode selecionar tabelas no gráfico do pipeline para criar uma lista de tabelas a serem executadas. Passe o cursor sobre a tabela no gráfico pipeline e clique em Ícone do menu de kebab. e escolha Selecionar tabela para refresh . Após selecionar as tabelas a serem refresh, escolha a opção de execução ou execução com refreshcompleta na parte inferior do gráfico do pipeline .

    executar tabelas selecionadas

  2. execução código selecionado

    Destaque o código SQL e clique em "Executar código selecionado" para inspecionar rapidamente os resultados sem materializar os dados. Os resultados são exibidos na tab "Resultados da Consulta" no painel inferior.

gráfico de tubulação

Após a execução ou validação de todos os arquivos de código-fonte no pipeline, você verá o gráficopipeline , também chamado de gráfico acíclico dirigido (DAG). O gráfico mostra o gráfico de dependência da tabela. Cada nó possui diferentes estados ao longo do ciclo de vida do pipeline, como validado, em execução ou com erro.

O gráfico pipeline mostra as dependências entre as tabelas e os estados do ciclo de vida no Editor LakeFlow Pipelines .

  1. Diagrama gráfico do oleoduto : Abra o diagrama clicando na tab Diagrama gráfico do oleoduto" no painel inferior.
  2. Nós : Exiba as dependências das tabelas que fazem parte do seu pipeline, bem como quaisquer métricas relacionadas a elas. Os nós que fazem parte dos arquivos atualmente abertos são destacados no gráfico do pipeline. Ao passar o cursor sobre um nó, uma barra de ferramentas com opções é exibida, incluindo a opção refresh a consulta. Clicar com o botão direito do mouse em um nó exibe as mesmas opções em um menu de contexto. Clicar em um nó exibe a pré-visualização dos dados e a definição da tabela. Ao editar um arquivo, as tabelas definidas nesse arquivo são destacadas no gráfico.
  3. Abrir em tab : Para maximizar o gráfico, selecione o ícone no canto superior direito do painel inferior para abri-lo em uma tab separada.
  4. Mais opções : Opções adicionais estão localizadas no canto inferior direito, incluindo opções de zoom e mais opções para exibir o gráfico na vertical ou na horizontal.

Prévias de dados

A seção de visualização de dados mostra dados de amostra para uma tabela selecionada.

Você vê uma prévia dos dados da tabela ao clicar em um nó no gráfico do pipeline. Para navegar até a pré-visualização de dados de uma tabela diferente diretamente no painel inferior, selecione Voltar ao gráfico ou clique em um nó diferente se o gráfico pipeline estiver aberto em uma tab separada.

Como alternativa, acesse a seção Tabelas e clique em " Visualizar pré-visualização dos dados". Ícone de visualização de dados da visualização LDP. Se você selecionou uma mesa, clique em Todas as mesas para retornar à lista completa.

Ao visualizar os dados da tabela, você pode filtrar ou classificar os dados no local. Se quiser fazer análises mais complexas, você pode usar ou criar um Notebook na pasta Explorations (supondo que você tenha mantido a estrutura de pastas default ). Por default, o código-fonte nesta pasta não é executado durante uma atualização pipeline , então você pode criar consultas sem afetar a saída pipeline .

Percepções de execução

Você pode ver as percepções de execução da tabela sobre a última atualização pipeline nos painéis na parte inferior do editor.

Painel

Descrição

tabelas

Lista todas as tabelas com seus status e métricas. Se você selecionar uma tabela, verá as métricas e o desempenho dessa tabela e uma tab para a visualização dos dados.

Desempenho

Consulte o histórico e os perfis de todos os fluxos neste pipeline. Você pode acessar as métricas de execução e os planos de consulta detalhados durante e após a execução. Consulte Acessar história de consulta para pipeline para obter mais informações.

Painel de questões

Clique no painel para uma view simplificada de erros, avisos e observações do pipeline. Clique em uma entrada para ver mais detalhes e, em seguida, navegue até o local no código onde o erro ocorreu. Se o erro estiver em um arquivo diferente daquele que está sendo exibido no momento, você será redirecionado para o arquivo onde o erro se encontra.

Clique em visualizar detalhes para ver a entrada log eventos correspondente e obter detalhes completos. Clique em visualizar logs para ver o log de eventos completo.

Clique em Diagnosticar erro para depurar o problema com Ícone do código do gênio brilhante. Genie Code.

Indicadores de erro afixados no código são exibidos para erros associados a uma parte específica do código. Para obter mais detalhes, clique no ícone de erro ou passe o mouse sobre a linha vermelha. Um pop-up com mais informações aparece. Você pode então clicar em Correção rápida para revelar um conjunto de ações para solucionar o erro.

Registro de eventos

Todos os eventos disparados durante a última execução do pipeline. Clique em visualizar logs ou qualquer entrada na bandeja de problemas.

Configuração do pipeline

Você pode configurar seu pipeline no editor de pipeline. Você pode fazer alterações nas configurações pipeline , programar ou permissões.

Cada um deles pode ser acessado por meio de um botão no cabeçalho do editor ou por meio de ícones no navegador ativo (barra lateral esquerda).

  • Configurações (ou escolha Ícone de engrenagem. no navegador ativo):

    Você pode editar as configurações do pipeline no painel de configurações, incluindo informações gerais, configuração da pasta raiz e do código-fonte, configuração compute , notificações, configurações avançadas e muito mais.

  • programar (ou escolher Ícone de relógio de calendário. no navegador ativo):

    Você pode criar um ou mais programas para seu pipeline na caixa de diálogo de programas. Por exemplo, se você quiser executá-lo diariamente, você pode definir isso aqui. Ele cria um Job para executar o pipeline no programa que você escolher. Você pode adicionar um novo programa ou remover um programa existente na caixa de diálogo de programas.

  • Compartilhar (ou, do Ícone do menu de kebab. menu no navegador ativo, escolha Ícone de compartilhamento.):

    Você pode gerenciar permissões no pipeline para usuários e grupos na caixa de diálogo de permissões do pipeline.

Registro de eventos

Você pode publicar o log de eventos de um pipeline no Unity Catalog. Por default, o log de eventos do seu pipeline é exibido na interface do usuário e pode ser consultado pelo proprietário.

  1. Abra Configurações .
  2. Clique no Ícone Chevron à direita. seta ao lado de Configurações avançadas .
  3. Clique em Editar configurações avançadas .
  4. Em logsde eventos , clique em Publicar no catálogo .
  5. Forneça um nome, catálogo e esquema para o log de eventos.
  6. Clique em Salvar .

Os eventos do seu pipeline são publicados na tabela que você especificou.

Para saber mais sobre como usar o log de eventos do pipeline, consulte Consultar o log de eventos.

Ambiente de pipeline

Você pode criar um ambiente para seu código-fonte adicionando dependências em Configurações .

  1. Abra Configurações .
  2. Em Ambiente de pipeline , clique em Editar ambiente .
  3. Clique em Adicionar dependência para adicionar uma dependência, como se você estivesse adicionando-a a um arquivo requirements.txt . Para obter mais informações sobre dependências, consulte Adicionar dependências ao Notebook.

Databricks recomenda que você pin a versão com ==. Veja o pacote PyPI.

O ambiente se aplica a todos os arquivos de código-fonte no seu pipeline.

Notificações

Você pode adicionar notificações usando as configurações do pipeline .

  1. Abra Configurações .
  2. Na seção Notificações , clique em Adicionar notificação .
  3. Adicione um ou mais endereços email e os eventos para os quais você deseja que eles sejam enviados.
  4. Clique em Adicionar notificação .
nota

Crie respostas personalizadas para eventos, incluindo notificações ou tratamento personalizado, usando ganchos de eventos do Python.

monitoramento de oleoduto

Databricks também fornece recursos para monitorar o pipeline em execução. O editor mostra os resultados e percepções de execução sobre a execução mais recente. Ele é otimizado para ajudar você a iterar de forma eficiente enquanto desenvolve seu pipeline de forma interativa.

A página de monitoramento pipeline permite view o histórico de execução, o que é útil quando um pipeline está sendo executado em um programa usando um Job.

nota

Existe uma experiência de monitoramento default e uma experiência de monitoramento de pré-visualização atualizada. A seção a seguir descreve como ativar ou desativar a experiência de monitoramento de pré-visualização. Para obter informações sobre ambas as experiências, consulte Monitorar pipeline na interface do usuário.

A experiência de monitoramento está disponível no botão "Tarefas e pipeline" no lado esquerdo da sua workspace. Você também pode ir diretamente para a página de monitoramento a partir do editor clicando nos resultados da execução no navegador pipeline ativo.

Link para a página de monitoramento do editor

Para mais informações sobre a página de monitoramento, consulte Monitorar pipeline na UI. A interface de monitoramento inclui a possibilidade de retornar ao Editor LakeFlow Pipelines selecionando "Editar pipeline no cabeçalho da interface.

Agente de Engenharia de Dados

info

Pré-visualização pública

Este recurso está em Visualização Pública.

O Editor LakeFlow Pipelines integra-se com o Agente de Engenharia de Dados Genie Code, que pode gerar, modificar e depurar pipelines declarativos completos LakeFlow Spark diretamente em linguagem natural. Para obter mais informações, consulte Usar código Genie para desenvolvimento pipeline.

Limitações e problemas conhecidos

Consulte as seguintes limitações e problemas conhecidos do editor pipeline ETL no pipeline declarativo LakeFlow Spark :

  1. A barra lateral do navegador workspace não se concentra no pipeline se você começar abrindo um arquivo na pasta explorations ou em um Notebook, pois esses arquivos ou o Notebook não fazem parte da definição do código-fonte pipeline .

    Para entrar no modo de foco pipeline no navegador workspace , abra um arquivo associado ao pipeline.

  2. As visualizações de dados não são suportadas para visualização regular.

  3. Os módulos Python não são encontrados dentro de uma UDF, mesmo que estejam na sua pasta raiz ou no seu sys.path. Você pode acessar esses módulos anexando o caminho ao sys.path de dentro do UDF, por exemplo: sys.path.append(os.path.abspath(“/Workspace/Users/path/to/modules”))

  4. %pip install não é suportado por arquivos (o tipo ativo default com o novo editor). Você pode adicionar dependências nas configurações. Veja Ambiente de pipeline.

    Como alternativa, você pode continuar a usar %pip install de um Notebook associado a um pipeline, em sua definição de código-fonte.

Perguntas frequentes

  1. Por que usar arquivos e não o Notebook para código-fonte?

    A execução do Notebook baseada em células não é compatível com o pipeline. Os recursos padrão do Notebook são desativados ou alterados ao trabalhar com pipelines, o que causa confusão para usuários familiarizados com o comportamento do Notebook.

    No editor LakeFlow Pipelines , o editor de arquivos é usado como base para um editor de primeira classe para pipelines. recurso são direcionados explicitamente ao pipeline, como tabela de execução Ícone de tabela de execução, em vez de sobrecarregar recursos familiares com comportamentos diferentes.

  2. Ainda posso usar o Notebook como código-fonte?

    Sim, você pode. Porém, alguns recursos, como tabela de execução Ícone de tabela de execução ou arquivo de execução , não estão presentes.

    Se você tiver um pipeline existente usando o Notebook, ele ainda funcionará no novo editor. No entanto, Databricks recomenda alternar para arquivos para o novo pipeline.

  3. Como posso adicionar código existente a um pipeline recém-criado?

    Você pode adicionar arquivos de código-fonte existentes a um novo pipeline. Para adicionar uma pasta com arquivos existentes, siga estes passos:

    1. Clique em Configurações .
    2. Em Código-fonte, clique em Configurar caminhos .
    3. Clique em Adicionar caminho e escolha a pasta para os arquivos existentes.
    4. Clique em Salvar .

    Você também pode adicionar arquivos individuais:

    1. Clique em " Todos os arquivos" no navegador ativo pipeline .
    2. Navegue até seu arquivo, clique Ícone do menu de kebab. e clique em Incluir no pipeline .

    Considere mover esses arquivos para a pasta raiz do pipeline. Se deixados fora da pasta raiz do pipeline, eles serão exibidos na seção Arquivos externos .

  4. Posso gerenciar o código-fonte do pipeline no Git?

    Você pode gerenciar a origem do seu pipeline no Git escolhendo uma pasta Git ao criar o pipeline inicialmente.

nota

Gerenciar seu código-fonte em uma pasta Git adiciona controle de versão ao seu código. No entanto, para controlar as versões da sua configuração, a Databricks recomenda o uso de Pacotes de Automação Declarativa para definir a configuração do pipeline em arquivos de configuração de pacotes que podem ser armazenados no Git (ou em outro sistema de controle de versão). Para mais informações, consulte O que são pacotes de automação declarativa?.

Se você não criou o pipeline em uma pasta Git inicialmente, você pode mover seu código-fonte para uma pasta Git. O Databricks recomenda usar a ação do editor para mover toda a pasta raiz para uma pasta Git. Isso atualiza todas as configurações adequadamente. Veja Pasta raiz.

Para mover a pasta raiz para uma pasta Git no pipeline ativo do navegador:

  1. Clique Ícone do menu de kebab. para a pasta raiz.
  2. Clique em Mover pasta raiz .
  3. Escolha um novo local para sua pasta raiz e clique em Mover .

Consulte a seção Pasta raiz para obter mais informações.

Após a movimentação, você verá o ícone familiar do Git ao lado do nome da sua pasta raiz.

importante

Para mover a pasta raiz pipeline , use o navegador ativo pipeline e siga os passos acima. Mover o arquivo de qualquer outra forma quebra as configurações do pipeline, e você precisa configurar manualmente o caminho correto da pasta em Configurações .

  1. Posso ter vários pipelines na mesma pasta raiz?

    Você pode, mas Databricks recomenda ter apenas um pipeline por pasta raiz.

  2. Quando devo executar uma execução seca?

    Clique em Executar a seco para verificar seu código sem atualizar as tabelas.

  3. Quando devo usar a visualização temporária e quando devo usar a visualização materializada no meu código?

    Use a visualização temporária quando não quiser materializar os dados. Por exemplo, este é um passo em uma sequência de passos para preparar os dados antes que eles estejam prontos para materializar usando uma tabela de transmissão ou view materializada registrada no Catálogo.