Configurar o Microsoft SQL Server para ingestão no Databricks

info

Visualização

O conector do Microsoft SQL Server está em Public Preview.

Este artigo fornece uma visão geral da configuração de origem necessária para usar o LakeFlow Connect para ingerir de SQL Server para Databricks.

Alterar acompanhamento vs. captura de dados de alterações (CDC)

O acompanhamento de mudanças e a captura de dados de alterações (CDC) (CDC) permitem que o site Databricks rastreie as mudanças nas tabelas de origem. Databricks recomenda o uso do acompanhamento de alterações para qualquer tabela que tenha um key primário para minimizar a carga no banco de dados de origem. Se os conectores change acompanhamento e CDC estiverem ativados, o conector SQL Server usará o change acompanhamento.

Acompanhamento de alterações: Captura o fato de que as linhas em uma tabela foram alteradas, mas não captura as operações reais. O acompanhamento de alterações exige que uma tabela tenha um primário key, mas é um processo leve que não tem um grande impacto no banco de dados de origem.
CDC: Captura todas as operações em uma tabela e contém um histórico view sobre as alterações feitas ao longo do tempo. CDC não exige que uma tabela tenha um primário key, mas pode ter um impacto maior no desempenho do banco de dados de origem.

Para obter mais informações sobre essas opções, consulte Rastrear alterações de dados (SQL Server ) na documentação SQL Server.

Visão geral da tarefa de configuração de fontes

O senhor deve concluir a seguinte tarefa em SQL Server antes de ingerir dados em Databricks:

Verifique se o senhor atende aos requisitos de versão do SQL Server:
- Para usar o change acompanhamento, o senhor deve ter o SQL Server 2012 ou o acima.
- Para usar o CDC, o senhor deve ter o SQL Server 2012 serviço pack 1 (SP1) cumulative update pacote 3 (CU3) ou acima. Para versões anteriores ao SQL Server 2016, o Enterprise Edition também é necessário.
Defina as configurações do firewall, se necessário.
- Banco de dados SQL do AWS
Crie um usuário de banco de dados no SQL Server que seja dedicado à ingestão do Databricks e que atenda aos requisitos de privilégio.
Habilite o acompanhamento de mudanças ou CDC:
- Alterar acompanhamento
- CDC

Alterar acompanhamento vs. captura de dados de alterações (CDC)​

Visão geral da tarefa de configuração de fontes​

Alterar acompanhamento vs. captura de dados de alterações (CDC)

Visão geral da tarefa de configuração de fontes