Conector de ingestão do Microsoft SQL Server
Esta página ajuda você a entender o fluxo de trabalho de ingestão SQL Server , incluindo os fatores que determinam sua abordagem de configuração e os passos envolvidos para diferentes perfis de usuário.
CDC padrão vs. CDC integrado
O SQL Server oferece suporte a duas arquiteturas de ingestão. A tabela a seguir compara:
Recurso | Padrão CDC (baseado em gateway) | CDC Integrado (Beta) |
|---|---|---|
Número de pipelines | Dois (gateway de ingestão e pipeline de ingestão) | Um (pipeline unificado) |
Configuração | Crie um gateway, então crie um pipeline de ingestão que faz referência ao ID do gateway. | Criar um único pipeline que faça referência a uma conexão do Unity Catalog |
Modo Gateway | O gateway é executado continuamente | O pipeline incorpora a extração em cada atualização. |
Referência de conexão |
|
|
Tipo de Conector | Implícito | Explícito: |
Volume de preparação | O gateway gerencia o volume de preparação internamente. | É possível configurar o volume de teste através de |
A mesma configuração de banco de dados de origem se aplica a ambas as arquiteturas. Consulte Configurar o Microsoft SQL Server para ingestão no Databricks. Para obter mais informações, consulte Criar um pipeline de CDC integrado para SQL Server.
Disponibilidade do recurso
Recurso | Disponibilidade |
|---|---|
Criação pipeline baseada em interface de usuário |
|
Criação pipeline baseada em API |
|
Pacotes de Automação Declarativa |
|
Ingestão incremental |
|
Governança Unity Catalog |
|
Orquestração utilizando Jobs do LakeFlow |
|
SCD tipo 2 |
|
Seleção e deseleção de colunas baseadas em API |
|
Filtragem de linhas baseada em API |
|
Evolução automatizada do esquema: Colunas novas e excluídas |
|
Evolução automatizada do esquema: mudanças no tipo de dados |
|
Evolução automatizada do esquema: renomeação de colunas |
Requer uma refresh completa. |
Evolução automatizada do esquema: Novas tabelas |
Se você ingerir todo o esquema. Veja as limitações quanto ao número de tabelas por pipeline. |
Número máximo de tabelas por pipeline | 250 |
Métodos de autenticação
Método de autenticação | Disponibilidade |
|---|---|
OAuth U2M |
|
OAuth M2M |
|
OAuth (tokens refresh manual) |
|
Autenticação básica (nome de usuário/senha) |
|
Autenticação básica ( key API ) |
|
Autenticação básica ( key JSON da account ) |
|
O que você precisa saber antes de começar.
tópico | Por que isso importa |
|---|---|
O fluxo de trabalho depende do seu perfil de usuário do Databricks:
| |
A configuração do banco de dados de origem depende do ambiente de implantação do SQL Server. | |
A configuração do banco de dados de origem depende de como você optar por rastrear as alterações na origem. | |
Os passos para criar uma conexão dependem do método de autenticação escolhido. | |
Os passos para criar uma conexão, um gateway e um pipeline dependem da interface. | |
A programação pipeline depende dos seus requisitos de latência e custo. | |
Dependendo das suas necessidades de ingestão, o pipeline pode usar configurações como acompanhamento de história, seleção de coluna e filtragem de linha. As configurações suportadas variam de acordo com o conector. Consulte a disponibilidade do recurso. |
Comece a ingerir dados do SQL Server
A tabela a seguir fornece uma visão geral do fluxo de trabalho de ingestão do SQL Server de ponta a ponta, com base no tipo de usuário:
Usuário | os passos |
|---|---|
Administrador |
|
Não administrativo | Utilize qualquer interface compatível para criar um gateway e um pipeline. Consulte Ingerir dados do SQL Server. |