Pular para o conteúdo principal

Configurar o Microsoft SQL Server para ingestão no Databricks

Visualize a configuração de origem da ingestão de tarefas do SQL Server para Databricks usando LakeFlow Connect.

Alterar acompanhamento vs. captura de dados de alterações (CDC)

O acompanhamento de mudanças e a captura de dados de alterações (CDC) (CDC) permitem que o site Databricks rastreie as mudanças nas tabelas de origem. Databricks recomenda o uso do acompanhamento de alterações para qualquer tabela que tenha um key primário para minimizar a carga no banco de dados de origem. Se os conectores change acompanhamento e CDC estiverem ativados, o conector SQL Server usará o change acompanhamento.

Método

Descrição

Alterar acompanhamento

Registra o fato de que as linhas em uma tabela foram alteradas, mas não registra as operações em si. A alteração de acompanhamento exige que uma tabela tenha uma key primária, mas é um processo simples que não tem grande impacto no banco de dados de origem.

captura de dados de alterações (CDC)

Registra todas as operações em uma tabela e contém uma view histórica das alterações realizadas ao longo do tempo. CDC não exige que uma tabela tenha uma key primária, mas isso pode ter um impacto maior no desempenho do banco de dados de origem.

Para obter mais informações sobre essas opções, consulte Rastrear alterações de dados (SQL Server ) na documentação SQL Server.

Visão geral da tarefa de configuração de fontes

O senhor deve concluir a seguinte tarefa em SQL Server antes de ingerir dados em Databricks:

  1. Verifique se o senhor atende aos requisitos de versão do SQL Server:

    • Para usar o change acompanhamento, o senhor deve ter o SQL Server 2012 ou o acima.
    • Para usar o CDC, o senhor deve ter o SQL Server 2012 serviço pack 1 (SP1) cumulative update pacote 3 (CU3) ou acima. Para versões anteriores ao SQL Server 2016, o Enterprise Edition também é necessário.
  2. Defina as configurações do firewall, se necessário.

  3. Crie um usuário de banco de dados no SQL Server que seja dedicado à ingestão do Databricks e que atenda aos requisitos de privilégio.

  4. Configure o banco de dados de origem, incluindo o gerenciamento de permissões, a ativação do rastreamento de alterações e a ativação CDC (Detecção de Criptografia de Dados). Consulte Preparar SQL Server para ingestão usando o script de objetos utilitários.