Configurar o SQL Server para ingestão no Databricks

Prévia

O LakeFlow Connect está em um Public Preview fechado. Para participar da pré-visualização, entre em contato com a equipe do Databricks account .

Este artigo fornece uma visão geral das decisões de configuração da fonte de pré-requisitos e da tarefa necessária para a ingestão de SQL Server em Databricks usando LakeFlow Connect.

Alterar acompanhamento vs. captura de dados de alterações (CDC)

Databricks O senhor precisa que Microsoft altere o acompanhamento ou Microsoft captura de dados de alterações (CDC) (CDC) para extração de dados de SQL Server.

  • O acompanhamento de alterações captura o fato de que as linhas em uma tabela foram alteradas, mas não captura as operações reais.

  • captura de dados de alterações (CDC) captura todas as operações em uma tabela.

A tabela a seguir fornece considerações para ajudar o senhor a escolher entre o acompanhamento de mudanças e o site CDC:

Alterar acompanhamento

captura de dados de alterações (CDC)

Captura o fato de que as linhas em uma tabela foram alteradas, mas não captura as alterações reais ou o número de alterações que foram feitas.

Captura o fato de que as linhas em uma tabela foram alteradas e as mudanças reais.

Baixa sobrecarga de CPU e armazenamento.

Alta sobrecarga de CPU e armazenamento.

Se uma tabela tiver um primário key, Databricks recomenda o uso do CT para otimizar o desempenho.

Quando não houver um key primário, o CDC deverá ser usado.

TRUNCATE As DDLs não estão bloqueadas.

Bloqueia TRUNCATE DDLs.

As operações definitivas não são capturadas. Por exemplo, uma sequência delete > insert > update pode ser gravada como uma inserção.

Captura cada operação de inserção, atualização e exclusão com a imagem completa.

Sem suporte nativo para DDL. Nosso suporte DDL ocasionalmente exige a reinicialização de uma tabela.

Suporte nativo limitado para DDL, mas ainda exigirá a reinicialização das tabelas em alguns casos.

Para obter mais informações sobre essas opções, consulte Rastrear alterações de dados (SQL Server ) na documentação SQL Server.

Visão geral da tarefa de configuração de fontes

O senhor deve concluir a seguinte tarefa em SQL Server antes de ingerir dados em Databricks:

  • Verifique se o senhor atende aos requisitos da versão do SQL Server:

    • Para usar o change acompanhamento, o senhor deve ter o SQL Server 2012 ou o acima.

    • Para usar o CDC, o senhor deve ter o SQL Server 2012 ou o acima. Além disso, as versões anteriores ao SQL Server 2016 exigem a edição Enterprise.

  • Crie um usuário de banco de dados no SQL Server que seja dedicado à ingestão do Databricks e que atenda aos requisitos de privilégio.

  • Habilitar a mudança de acompanhamento ou integrada CDC: