Pular para o conteúdo principal

Conector de ingestão do Microsoft SQL Server

Esta página ajuda você a entender o fluxo de trabalho de ingestão SQL Server , incluindo os fatores que determinam sua abordagem de configuração e os passos envolvidos para diferentes perfis de usuário.

CDC padrão vs. CDC integrado

O SQL Server oferece suporte a duas arquiteturas de ingestão. A tabela a seguir compara:

Recurso

Padrão CDC (baseado em gateway)

CDC Integrado (Beta)

Número de pipelines

Dois (gateway de ingestão e pipeline de ingestão)

Um (pipeline unificado)

Configuração

Crie um gateway, então crie um pipeline de ingestão que faz referência ao ID do gateway.

Criar um único pipeline que faça referência a uma conexão do Unity Catalog

Modo Gateway

O gateway é executado continuamente

O pipeline incorpora a extração em cada atualização.

Referência de conexão

ingestion_gateway_id

connection_name (uma conexão do Unity Catalog)

Tipo de Conector

Implícito

Explícito: connector_type: CDC

Volume de preparação

O gateway gerencia o volume de preparação internamente.

É possível configurar o volume de teste através de data_staging_options. O pipeline é criado automaticamente se não for especificado.

A mesma configuração de banco de dados de origem se aplica a ambas as arquiteturas. Consulte Configurar o Microsoft SQL Server para ingestão no Databricks. Para obter mais informações, consulte Criar um pipeline de CDC integrado para SQL Server.

Disponibilidade do recurso

Recurso

Disponibilidade

Criação pipeline baseada em interface de usuário

Ícone de visto verde Apoiado

Criação pipeline baseada em API

Ícone de visto verde Apoiado

Pacotes de Automação Declarativa

Ícone de visto verde Apoiado

Ingestão incremental

Ícone de visto verde Apoiado

Governança Unity Catalog

Ícone de visto verde Apoiado

Orquestração utilizando Jobs do LakeFlow

Ícone de visto verde Apoiado

SCD tipo 2

Ícone de visto verde Apoiado

Seleção e deseleção de colunas baseadas em API

Ícone de visto verde Apoiado

Filtragem de linhas baseada em API

Ícone X vermelho Não suportado

Evolução automatizada do esquema: Colunas novas e excluídas

Ícone de visto verde Apoiado

Evolução automatizada do esquema: mudanças no tipo de dados

Ícone X vermelho Não suportado

Evolução automatizada do esquema: renomeação de colunas

Ícone X vermelho Não suportado

Requer uma refresh completa.

Evolução automatizada do esquema: Novas tabelas

Ícone de visto verde Apoiado

Se você ingerir todo o esquema. Veja as limitações quanto ao número de tabelas por pipeline.

Número máximo de tabelas por pipeline

250

Métodos de autenticação

Método de autenticação

Disponibilidade

OAuth U2M

Ícone de visto verde Apoiado

OAuth M2M

Ícone de visto verde Apoiado

OAuth (tokens refresh manual)

Ícone X vermelho Não suportado

Autenticação básica (nome de usuário/senha)

Ícone de visto verde Apoiado

Autenticação básica ( key API )

Ícone X vermelho Não suportado

Autenticação básica ( key JSON da account )

Ícone X vermelho Não suportado

O que você precisa saber antes de começar.

tópico

Por que isso importa

Perfil do usuário do Databricks

O fluxo de trabalho depende do seu perfil de usuário do Databricks:

  • Usuário único: Um usuário administrador configura o banco de dados de origem e cria uma conexão com Unity Catalog , um gateway de ingestão e um pipeline de ingestão.
  • Multiusuário: Um usuário administrador configura o banco de dados de origem e cria uma conexão para que usuários sem privilégios de administrador possam criar pares de gateway e pipeline.

Variação do banco de dados

A configuração do banco de dados de origem depende do ambiente de implantação do SQL Server.

Alterar método

A configuração do banco de dados de origem depende de como você optar por rastrear as alterações na origem.

Método de autenticação

Os passos para criar uma conexão dependem do método de autenticação escolhido.

Interface

Os passos para criar uma conexão, um gateway e um pipeline dependem da interface.

Frequência de ingestão

A programação pipeline depende dos seus requisitos de latência e custo.

Padrões comuns

Dependendo das suas necessidades de ingestão, o pipeline pode usar configurações como acompanhamento de história, seleção de coluna e filtragem de linha. As configurações suportadas variam de acordo com o conector. Consulte a disponibilidade do recurso.

Comece a ingerir dados do SQL Server

A tabela a seguir fornece uma visão geral do fluxo de trabalho de ingestão do SQL Server de ponta a ponta, com base no tipo de usuário:

Usuário

os passos

Administrador

  1. Configure o Microsoft SQL Server para ingestão de dados no Databricks.
  2. Qualquer:

Não administrativo

Utilize qualquer interface compatível para criar um gateway e um pipeline. Consulte Ingerir dados do SQL Server.