Configurar o SQL Server para ingestão no Databricks
Prévia
O LakeFlow Connect está em um Public Preview fechado. Para participar da pré-visualização, entre em contato com a equipe do Databricks account .
Este artigo fornece uma visão geral das decisões de configuração da fonte de pré-requisitos e da tarefa necessária para a ingestão de SQL Server em Databricks usando LakeFlow Connect.
Alterar acompanhamento vs. captura de dados de alterações (CDC)
Databricks O senhor precisa que Microsoft altere o acompanhamento ou Microsoft captura de dados de alterações (CDC) (CDC) para extração de dados de SQL Server.
O acompanhamento de alterações captura o fato de que as linhas em uma tabela foram alteradas, mas não captura as operações reais.
captura de dados de alterações (CDC) captura todas as operações em uma tabela.
A tabela a seguir fornece considerações para ajudar o senhor a escolher entre o acompanhamento de mudanças e o site CDC:
Alterar acompanhamento |
captura de dados de alterações (CDC) |
---|---|
Captura o fato de que as linhas em uma tabela foram alteradas, mas não captura as alterações reais ou o número de alterações que foram feitas. |
Captura o fato de que as linhas em uma tabela foram alteradas e as mudanças reais. |
Baixa sobrecarga de CPU e armazenamento. |
Alta sobrecarga de CPU e armazenamento. |
Se uma tabela tiver um primário key, Databricks recomenda o uso do CT para otimizar o desempenho. |
Quando não houver um key primário, o CDC deverá ser usado. |
|
Bloqueia |
As operações definitivas não são capturadas. Por exemplo, uma sequência |
Captura cada operação de inserção, atualização e exclusão com a imagem completa. |
Sem suporte nativo para DDL. Nosso suporte DDL ocasionalmente exige a reinicialização de uma tabela. |
Suporte nativo limitado para DDL, mas ainda exigirá a reinicialização das tabelas em alguns casos. |
Para obter mais informações sobre essas opções, consulte Rastrear alterações de dados (SQL Server ) na documentação SQL Server.
Visão geral da tarefa de configuração de fontes
O senhor deve concluir a seguinte tarefa em SQL Server antes de ingerir dados em Databricks:
Verifique se o senhor atende aos requisitos da versão do SQL Server:
Para usar o change acompanhamento, o senhor deve ter o SQL Server 2012 ou o acima.
Para usar o CDC, o senhor deve ter o SQL Server 2012 ou o acima. Além disso, as versões anteriores ao SQL Server 2016 exigem a edição Enterprise.
Crie um usuário de banco de dados no SQL Server que seja dedicado à ingestão do Databricks e que atenda aos requisitos de privilégio.
Habilitar a mudança de acompanhamento ou integrada CDC: