Manter o pipeline de ingestão do site SQL Server
Visualização
O conector do Microsoft SQL Server está em Public Preview.
Esta página descreve as operações em andamento para manter o pipeline de ingestão do SQL Server.
Manutenção geral do site pipeline
As tarefas de manutenção do site pipeline nesta seção se aplicam a todos os conectores gerenciáveis em LakeFlow Connect.
Totalmente refresh tabelas de destino
A atualização completa da ingestão pipeline limpa os dados e o estado da tabela e, em seguida, reprocessa todos os registros da fonte de dados.
-
Para refresh totalmente as tabelas selecionadas:
a. Na barra lateral do site Databricks workspace, clique em pipeline . a. Selecione o pipeline. a. Na página de detalhes do pipeline, clique em Select tables for refresh for the ingestion pipeline ( Selecionar tabelas para atualização do pipeline de ingestão). a. Selecione as tabelas desejadas e clique em Full refresh selection (Atualizar seleção completa ).
- Para refresh totalmente todas as tabelas na ingestão pipeline, clique no menu suspenso ao lado do botão começar e, em seguida, clique em Full refresh all .
A atualização do pipeline de ingestão pode falhar durante a fase Initializing
ou Resetting tables
. LakeFlow Connect tentará acessar novamente o site pipeline automaticamente várias vezes. Se as tentativas automáticas forem interrompidas manualmente ou eventualmente falharem fatalmente, comece a nova atualização do pipeline manualmente com a tabela refresh selecionada anteriormente. Não fazer isso pode fazer com que as tabelas de destino sejam deixadas em um estado inconsistente com dados parciais. Se as tentativas manuais também falharem, crie um ticket de suporte.
Alterar a ingestão pipeline programar
- Na barra lateral do site Databricks workspace, clique em pipeline .
- Selecione o endereço pipeline e clique em programar .
Personalizar alertas e notificações
LakeFlow Connect configura automaticamente as notificações para todos os pipelines de ingestão e trabalhos de programação. O senhor pode personalizar as notificações na interface do usuário ou usando o pipeline API.
- UI
- API
- No painel esquerdo, clique em pipeline .
- Selecione seu pipeline.
- Clique em programar .
- Se o senhor já tiver um programar para o qual deseja receber notificações: a. Identifique o programar na lista. a. Clique no menu kebab e, em seguida, clique em Editar. a. Clique em Mais opções e adicione suas notificações.
- Se o senhor precisar de um novo programar: a. Clique em Add programar . a. Configure seu programa. a. Clique em Mais opções e adicione suas notificações.
Consulte Notificações no PUT /api/2.0/pipeline/{{pipeline_id} documentação.
Especificar tabelas a serem ingeridas
O pipeline API fornece dois métodos para especificar as tabelas a serem ingeridas no campo objects
do ingestion_definition:
- Especificação de tabela: ingere uma tabela individual do catálogo e esquema de origem especificados para o catálogo e esquema de destino especificados.
- Especificação do esquema: ingere todas as tabelas do catálogo e do esquema de origem especificados no catálogo e no esquema especificados.
Se optar por ingerir um esquema inteiro, o senhor deve analisar as limitações do número de tabelas por pipeline para o seu conector.
Específico do conector pipeline manutenção
As tarefas de manutenção do pipeline nesta seção são específicas para o conector SQL Server.
Remover arquivos de teste não utilizados
Para o pipeline de ingestão criado após 6 de janeiro de 2025, os dados de preparação de volume são automaticamente programados para exclusão após 25 dias e fisicamente removidos após 30 dias. Um pipeline de ingestão que não foi concluído com êxito por 25 dias ou mais pode resultar em lacunas de dados nas tabelas de destino. Para evitar lacunas, o senhor deve acionar um refresh completo das tabelas de destino.
Para o pipeline de ingestão criado antes de 6 de janeiro de 2025, entre em contato com o suporte Databricks para solicitar a ativação manual do gerenciamento automático de retenção para a preparação de dados CDC.
Os seguintes dados são automaticamente limpos:
- Arquivos de dados do CDC
- Snapshot arquivos
- Preparando dados da tabela
Reinicie o gateway de ingestão
Para diminuir a carga no banco de dados de origem, o gateway de ingestão só verifica periodicamente se há novas tabelas. Pode levar até 6 horas para que novas tabelas sejam descobertas. Se você quiser acelerar esse processo, reinicie o gateway.