Pular para o conteúdo principal

Tarefa comum de manutenção pipeline

Aprenda como realizar operações contínuas para gerenciar o pipeline de ingestão.

Reinicie o pipeline de ingestão.

Aplica-se a : Ícone de visto verde Conectores SaaS Ícone de visto verde Conectores de banco de dados Ícone de visto verde Conectores baseados em consultas

Reinicie o pipeline de ingestão quando uma execução do pipeline falhar inesperadamente ou travar. Isso pode corrigir falhas transitórias, como problemas temporários de rede, tempos limite do banco de dados de origem ou erros de configuração que já foram corrigidos.

Reinicie o gateway de ingestão.

Aplica-se a : Ícone X vermelho Conectores SaaS Ícone de visto verde Conectores de banco de dados

Para diminuir a carga no banco de dados de origem, o gateway de ingestão verifica a existência de novas tabelas apenas periodicamente. Pode levar até seis horas para descobrir novas mesas. Para acelerar esse processo, reinicie o gateway.

executar uma refresh completa para reingerir dados

Aplica-se a : Ícone de visto verde Conectores SaaS Ícone de visto verde Conectores de banco de dados Ícone de visto verde Conectores baseados em consultas

Uma refresh completa apaga os dados existentes e reinsere todos os registros. refresh completamente as tabelas de destino quando os dados forem inconsistentes, incompletos ou precisarem ser reprocessados a partir da origem.

Para obter mais informações sobre o comportamento refresh completa, consulte refresh totalmente as tabelas de destino.

Atualizar o programador pipeline

Aplica-se a : Ícone de visto verde Conectores SaaS Ícone de visto verde Conectores de banco de dados Ícone de visto verde Conectores baseados em consultas

Ajuste a frequência com que os dados são ingeridos da fonte para equilibrar os requisitos de atualização dos dados com a carga do sistema de origem.

Interface

Instruções

interface do usuário da casa do lago

Programar um pipeline com a interface de usuário pipeline .

API de jobs

POST /api/2.2/Job/update

CLI do Databricks

Atualização de vagas no Databricks

Configure alertas e notificações.

Aplica-se a : Ícone de visto verde Conectores SaaS Ícone de visto verde Conectores de banco de dados Ícone de visto verde Conectores baseados em consultas

LakeFlow Connect configura automaticamente notificações para o pipeline de ingestão e para os trabalhos de programação, permitindo que você monitore a integridade pipeline e receba alertas oportunos sobre falhas. Você pode personalizar as notificações, se necessário.

Interface

Instruções

interface do usuário da casa do lago

Adicionar notificações email para eventos pipeline

APIde pipeline

PUT /api/2.0/pipeline/{pipeline_id}

CLI do Databricks

atualização do pipeline do Databricks

Remova os arquivos de preparação não utilizados.

Aplica-se a : Ícone X vermelho Conectores SaaS Ícone de visto verde Conectores de banco de dados

Para pipelines de ingestão criados após 6 de janeiro de 2025, Databricks programa automaticamente o volume de dados de preparação para exclusão após 25 dias e os remove fisicamente após 30 dias. Um pipeline de ingestão que não seja concluído com sucesso em 25 dias ou mais pode resultar em lacunas de dados nas tabelas de destino. Para evitar lacunas, você deve acionar uma refresh completa das tabelas de destino.

Para pipelines de ingestão criados antes de 6 de janeiro de 2025, entre em contato com o Suporte Databricks para solicitar a ativação manual do gerenciamento automático de retenção para dados de preparação CDC .

Os seguintes dados são limpos automaticamente:

  • Arquivos de dados do CDC
  • Arquivos Snapshot
  • dados da tabela de preparação

Especifique as tabelas a serem ingeridas.

Aplica-se a : Ícone de visto verde Conectores SaaS Ícone de visto verde Conectores de banco de dados Ícone de visto verde Conectores baseados em consultas

A API do pipeline fornece dois métodos para especificar as tabelas a serem ingeridas no campo objects do ingestion_definition:

  • Especificação da tabela: Importa uma tabela individual do catálogo e esquema de origem especificados para o catálogo e esquema de destino especificados.
  • Especificação do esquema: Importa todas as tabelas do catálogo e esquema de origem especificados para o catálogo e esquema especificados.

Caso opte por ingerir um esquema completo, verifique as limitações quanto ao número de tabelas por pipeline para o seu conector.

Interface

Instruções

APIde pipeline

PUT /api/2.0/pipeline/{pipeline_id}

CLI do Databricks

atualização do pipeline do Databricks

Verificar se a ingestão de dados foi bem-sucedida

Aplica-se a : Ícone X vermelho Conectores SaaS Ícone de visto verde Conectores de banco de dados

A view em lista na página de detalhes pipeline mostra o número de registros processados à medida que os dados são ingeridos. Esses números refresh automaticamente.

Verificar replicação

As colunas Upserted records e Deleted records não são exibidas por default. Você pode habilitá-las clicando na configuração das colunas.Ícone de configuração de colunas botão e selecionando-os.