Tarefa comum de manutenção pipeline

Aprenda como realizar operações contínuas para gerenciar o pipeline de ingestão.

Reinicie o pipeline de ingestão.

Aplica-se a : Conectores SaaS Conectores de banco de dados

Reinicie o pipeline de ingestão quando uma execução do pipeline falhar inesperadamente ou travar. Isso pode corrigir falhas transitórias, como problemas temporários de rede, tempos limite do banco de dados de origem ou erros de configuração que já foram corrigidos.

Interface	Instruções
interface do usuário da casa do lago	Acionar manualmente uma atualização de pipeline
APIde pipeline	POST /api/2.0/pipeline/`{pipeline_id}`/updates
CLI do Databricks	pipeline de databricks começar-atualização

Reinicie o gateway de ingestão.

Aplica-se a : Conectores de banco de dados

Para diminuir a carga no banco de dados de origem, o gateway de ingestão verifica a existência de novas tabelas apenas periodicamente. Pode levar até seis horas para descobrir novas mesas. Para acelerar esse processo, reinicie o gateway.

Interface	Instruções
interface do usuário da casa do lago	Acionar manualmente uma atualização de pipeline
APIde pipeline	POST /api/2.0/pipeline/`{pipeline_id}`/updates
CLI do Databricks	pipeline de databricks começar-atualização

executar uma refresh completa para reingerir dados

Aplica-se a : Conectores SaaS Conectores de banco de dados

Uma refresh completa apaga os dados existentes e reinsere todos os registros. refresh completamente as tabelas de destino quando os dados forem inconsistentes, incompletos ou precisarem ser reprocessados a partir da origem.

Para obter mais informações sobre o comportamento refresh completa, consulte refresh totalmente as tabelas de destino.

Interface	Instruções
interface do usuário da casa do lago	Acionar manualmente uma atualização de pipeline
APIde pipeline	POST /api/2.0/pipeline/`{pipeline_id}`/updates
CLI do Databricks	pipeline de databricks começar-atualização

Atualizar o programador pipeline

Aplica-se a : Conectores SaaS Conectores de banco de dados

Ajuste a frequência com que os dados são ingeridos da fonte para equilibrar os requisitos de atualização dos dados com a carga do sistema de origem.

Interface	Instruções
interface do usuário da casa do lago	Programar um pipeline com a interface de usuário pipeline .
API de jobs	POST /api/2.2/Job/update
CLI do Databricks	Atualização de vagas no Databricks

Configure alertas e notificações.

Aplica-se a : Conectores SaaS Conectores de banco de dados

LakeFlow Connect configura automaticamente notificações para o pipeline de ingestão e para os trabalhos de programação, permitindo que você monitore a integridade pipeline e receba alertas oportunos sobre falhas. Você pode personalizar as notificações, se necessário.

Interface	Instruções
interface do usuário da casa do lago	Adicionar notificações email para eventos pipeline
APIde pipeline	PUT /api/2.0/pipeline/`{pipeline_id}`
CLI do Databricks	atualização do pipeline do Databricks

Remova os arquivos de preparação não utilizados.

Aplica-se a : Conectores de banco de dados

Para pipelines de ingestão criados após 6 de janeiro de 2025, Databricks programa automaticamente o volume de dados de preparação para exclusão após 25 dias e os remove fisicamente após 30 dias. Um pipeline de ingestão que não seja concluído com sucesso em 25 dias ou mais pode resultar em lacunas de dados nas tabelas de destino. Para evitar lacunas, você deve acionar uma refresh completa das tabelas de destino.

Para pipelines de ingestão criados antes de 6 de janeiro de 2025, entre em contato com o Suporte Databricks para solicitar a ativação manual do gerenciamento automático de retenção para dados de preparação CDC .

Os seguintes dados são limpos automaticamente:

Arquivos de dados do CDC
Arquivos Snapshot
dados da tabela de preparação

Especifique as tabelas a serem ingeridas.

Aplica-se a : Conectores SaaS Conectores de banco de dados

A API do pipeline fornece dois métodos para especificar as tabelas a serem ingeridas no campo objects do ingestion_definition:

Especificação da tabela: Importa uma tabela individual do catálogo e esquema de origem especificados para o catálogo e esquema de destino especificados.
Especificação do esquema: Importa todas as tabelas do catálogo e esquema de origem especificados para o catálogo e esquema especificados.

Caso opte por ingerir um esquema completo, verifique as limitações quanto ao número de tabelas por pipeline para o seu conector.

Interface	Instruções
APIde pipeline	PUT /api/2.0/pipeline/`{pipeline_id}`
CLI do Databricks	atualização do pipeline do Databricks

Reinicie o pipeline de ingestão.​

Reinicie o gateway de ingestão.​

executar uma refresh completa para reingerir dados​

Atualizar o programador pipeline​

Configure alertas e notificações.​

Remova os arquivos de preparação não utilizados.​

Especifique as tabelas a serem ingeridas.​

Reinicie o pipeline de ingestão.

Reinicie o gateway de ingestão.

executar uma refresh completa para reingerir dados

Atualizar o programador pipeline

Configure alertas e notificações.

Remova os arquivos de preparação não utilizados.

Especifique as tabelas a serem ingeridas.