Configurar o SQL Server para ingestão no Databricks

Prévia

O LakeFlow Connect está em um Public Preview fechado. Para participar da pré-visualização, entre em contato com a equipe do Databricks account .

Este artigo fornece uma visão geral das decisões de configuração da fonte de pré-requisitos e da tarefa necessária para a ingestão de SQL Server em Databricks usando LakeFlow Connect.

Alterar acompanhamento vs. captura de dados de alterações (CDC)

Databricks O senhor precisa que Microsoft altere o acompanhamento ou Microsoft captura de dados de alterações (CDC) (CDC) para extração de dados de SQL Server.

O acompanhamento de alterações captura o fato de que as linhas em uma tabela foram alteradas, mas não captura as operações reais.
captura de dados de alterações (CDC) captura todas as operações em uma tabela.

A tabela a seguir fornece considerações para ajudar o senhor a escolher entre o acompanhamento de mudanças e o site CDC:

Alterar acompanhamento	captura de dados de alterações (CDC)
Captura o fato de que as linhas em uma tabela foram alteradas, mas não captura as alterações reais ou o número de alterações que foram feitas.	Captura o fato de que as linhas em uma tabela foram alteradas e as mudanças reais.
Baixa sobrecarga de CPU e armazenamento.	Alta sobrecarga de CPU e armazenamento.
Se uma tabela tiver um primário key, Databricks recomenda o uso do CT para otimizar o desempenho.	Quando não houver um key primário, o CDC deverá ser usado.
`TRUNCATE` As DDLs não estão bloqueadas.	Bloqueia `TRUNCATE` DDLs.
As operações definitivas não são capturadas. Por exemplo, uma sequência `delete > insert > update` pode ser gravada como uma inserção.	Captura cada operação de inserção, atualização e exclusão com a imagem completa.
Sem suporte nativo para DDL. Nosso suporte DDL ocasionalmente exige a reinicialização de uma tabela.	Suporte nativo limitado para DDL, mas ainda exigirá a reinicialização das tabelas em alguns casos.

Para obter mais informações sobre essas opções, consulte Rastrear alterações de dados (SQL Server ) na documentação SQL Server.

Visão geral da tarefa de configuração de fontes

O senhor deve concluir a seguinte tarefa em SQL Server antes de ingerir dados em Databricks:

Verifique se o senhor atende aos requisitos da versão do SQL Server:
- Para usar o change acompanhamento, o senhor deve ter o SQL Server 2012 ou o acima.
- Para usar o CDC, o senhor deve ter o SQL Server 2012 ou o acima. Além disso, as versões anteriores ao SQL Server 2016 exigem a edição Enterprise.
Crie um usuário de banco de dados no SQL Server que seja dedicado à ingestão do Databricks e que atenda aos requisitos de privilégio.
Habilitar a mudança de acompanhamento ou integrada CDC:
- Habilitar o acompanhamento de mudanças no SQL Server
- Habilite a integração CDC no SQL Server