Pular para o conteúdo principal

Tarefa comum de manutenção pipeline

Aprenda como realizar operações contínuas para gerenciar o pipeline de ingestão.

Reinicie o pipeline de ingestão.

Aplica-se a : Sim, marcado como certo Conectores SaaS Sim, marcado como certo Conectores de banco de dados

Reinicie o pipeline de ingestão quando uma execução do pipeline falhar inesperadamente ou travar. Isso pode corrigir falhas transitórias, como problemas temporários de rede, tempos limite do banco de dados de origem ou erros de configuração que já foram corrigidos.

Reinicie o gateway de ingestão.

Aplica-se a : Sim, marcado como certo Conectores de banco de dados

Para diminuir a carga no banco de dados de origem, o gateway de ingestão verifica a existência de novas tabelas apenas periodicamente. Pode levar até seis horas para descobrir novas mesas. Para acelerar esse processo, reinicie o gateway.

executar uma refresh completa para reingerir dados

Aplica-se a : Sim, marcado como certo Conectores SaaS Sim, marcado como certo Conectores de banco de dados

Uma refresh completa apaga os dados existentes e reinsere todos os registros. refresh completamente as tabelas de destino quando os dados forem inconsistentes, incompletos ou precisarem ser reprocessados a partir da origem.

Para obter mais informações sobre o comportamento refresh completa, consulte refresh totalmente as tabelas de destino.

Atualizar o programador pipeline

Aplica-se a : Sim, marcado como certo Conectores SaaS Sim, marcado como certo Conectores de banco de dados

Ajuste a frequência com que os dados são ingeridos da fonte para equilibrar os requisitos de atualização dos dados com a carga do sistema de origem.

Interface

Instruções

interface do usuário da casa do lago

Programar um pipeline com a interface de usuário pipeline .

API de jobs

POST /api/2.2/Job/update

CLI do Databricks

Atualização de vagas no Databricks

Configure alertas e notificações.

Aplica-se a : Sim, marcado como certo Conectores SaaS Sim, marcado como certo Conectores de banco de dados

LakeFlow Connect configura automaticamente notificações para o pipeline de ingestão e para os trabalhos de programação, permitindo que você monitore a integridade pipeline e receba alertas oportunos sobre falhas. Você pode personalizar as notificações, se necessário.

Interface

Instruções

interface do usuário da casa do lago

Adicionar notificações email para eventos pipeline

APIde pipeline

PUT /api/2.0/pipeline/{pipeline_id}

CLI do Databricks

atualização do pipeline do Databricks

Remova os arquivos de preparação não utilizados.

Aplica-se a : Sim, marcado como certo Conectores de banco de dados

Para pipelines de ingestão criados após 6 de janeiro de 2025, Databricks programa automaticamente o volume de dados de preparação para exclusão após 25 dias e os remove fisicamente após 30 dias. Um pipeline de ingestão que não seja concluído com sucesso em 25 dias ou mais pode resultar em lacunas de dados nas tabelas de destino. Para evitar lacunas, você deve acionar uma refresh completa das tabelas de destino.

Para pipelines de ingestão criados antes de 6 de janeiro de 2025, entre em contato com o Suporte Databricks para solicitar a ativação manual do gerenciamento automático de retenção para dados de preparação CDC .

Os seguintes dados são limpos automaticamente:

  • Arquivos de dados do CDC
  • Arquivos Snapshot
  • dados da tabela de preparação

Especifique as tabelas a serem ingeridas.

Aplica-se a : Sim, marcado como certo Conectores SaaS Sim, marcado como certo Conectores de banco de dados

A API do pipeline fornece dois métodos para especificar as tabelas a serem ingeridas no campo objects do ingestion_definition:

  • Especificação da tabela: Importa uma tabela individual do catálogo e esquema de origem especificados para o catálogo e esquema de destino especificados.
  • Especificação do esquema: Importa todas as tabelas do catálogo e esquema de origem especificados para o catálogo e esquema especificados.

Caso opte por ingerir um esquema completo, verifique as limitações quanto ao número de tabelas por pipeline para o seu conector.

Interface

Instruções

APIde pipeline

PUT /api/2.0/pipeline/{pipeline_id}

CLI do Databricks

atualização do pipeline do Databricks