Perguntas frequentes sobre o conector do SQL Server

Esta página responde às perguntas frequentes sobre o conector SQL Server em Databricks LakeFlow Connect.

Perguntas frequentes sobre o conector de gerenciar geral

As respostas nas perguntas frequentes sobre conectores gerenciar se aplicam a todos os conectores gerenciar em LakeFlow Connect. Continue lendo as perguntas frequentes específicas sobre conectores.

Como a Databricks se conecta ao SQL Server?

A Databricks se conecta ao SQL Server usando a segurança da camada de transporte (TLS) e uma conexão JDBC. As credenciais são armazenadas com segurança no Unity Catalog e só podem ser recuperadas se o usuário que estiver executando o fluxo de ingestão tiver as permissões adequadas. A Databricks recomenda a criação de um usuário separado no SQL Server para a ingestão de dados. Se houver bancos de dados ou tabelas que o senhor não deseja expor a esse usuário, poderá usar as permissões integradas do SQL Server.

Se o pipeline falhar, a ingestão será retomada sem perda de dados?

Sim. O Databricks mantém o controle do que o conector extraiu da origem e aplicou no destino. Se algo acontecer, o Databricks poderá ser retomado nesse ponto, desde que os logs permaneçam no banco de dados de origem. Isso pode ser afetado se o pipeline não for executado antes que o período de retenção do log exclua o logs, exigindo um refresh completo nas tabelas de destino.

Quais variações do SQL Server são compatíveis com o conector?

O conector é compatível com os bancos de dados SQL do Azure SQL e do AWS RDS. Isso inclui o SQL Server em execução nas máquinas virtuais (VMs) do Azure e no Amazon EC2. O conector também oferece suporte ao SQL Server no local usando o Azure ExpressRoute, o AWS Direct Connect e a VPN, se houver largura de banda suficiente disponível.

Como o conector extrai dados de forma incremental?

O conector usa Microsoft Change acompanhamento e Microsoft captura de dados de alterações (CDC) (CDC), quando disponível. Se uma tabela tiver uma tabela primária key, o site Databricks recomenda o uso de change acompanhamento para otimizar o desempenho. Se uma tabela não tiver um primário key, Databricks recomenda usar CDC. Se as opções change acompanhamento e CDC estiverem ativadas, o conector usará change acompanhamento.

O conector captura fusos horários para colunas de data e hora?

Não. A data e a hora são ingeridas no formato UTC.

Posso personalizar a programação do gateway de ingestão?

Não, o gateway de ingestão deve ser executado em modo contínuo para evitar que as alterações sejam descartadas devido à retenção do log. Se as alterações tiverem sido descartadas, será necessário um refresh completo para todas as tabelas.

Como o conector lida com uma tabela sem um primário key?

O conector trata todas as colunas, exceto os objetos grandes, como um pacote primário key. Se houver linhas duplicadas na tabela de origem, essas linhas serão ingeridas como uma única linha na tabela de destino.

Com que frequência posso programar a execução do pipeline de ingestão?

Não há limite para a frequência com que a ingestão pipeline pode ser programada para execução. No entanto, o site Databricks recomenda pelo menos 5 minutos entre os intervalos, pois leva algum tempo para que o serverless compute chegue ao startup. O Databricks não oferece suporte à execução do pipeline de ingestão no modo contínuo.

Por que não estou vendo todas as linhas do meu banco de dados na execução inicial do pipeline?

O gateway de ingestão extrai dados históricos e CDC assim que começa a funcionar. A ingestão pipeline pode ser executada antes que todos esses dados tenham sido extraídos, resultando em uma aplicação parcial dos dados nas tabelas de destino. Pode levar algumas execuções da ingestão pipeline para que todos os dados sejam extraídos e aplicados às tabelas de destino.

Posso ingerir de uma réplica de leitura ou de uma instância secundária?

Não. O suporte é limitado às instâncias primárias do SQL Server. Isso ocorre porque não há suporte para acompanhamento de alterações e captura de dados de alterações (CDC) em réplicas de leitura ou instâncias secundárias.

Perguntas frequentes sobre o conector de gerenciar geral​

Como a Databricks se conecta ao SQL Server?​

Se o pipeline falhar, a ingestão será retomada sem perda de dados?​

Quais variações do SQL Server são compatíveis com o conector?​

Como o conector extrai dados de forma incremental?​

O conector captura fusos horários para colunas de data e hora?​

Posso personalizar a programação do gateway de ingestão?​

Como o conector lida com uma tabela sem um primário key?​

Com que frequência posso programar a execução do pipeline de ingestão?​

Por que não estou vendo todas as linhas do meu banco de dados na execução inicial do pipeline?​

Posso ingerir de uma réplica de leitura ou de uma instância secundária?​