Conector de ingestão do Microsoft SQL Server

Esta página ajuda você a entender o fluxo de trabalho de ingestão SQL Server , incluindo os fatores que determinam sua abordagem de configuração e os passos envolvidos para diferentes perfis de usuário.

CDC padrão vs. CDC integrado

O SQL Server oferece suporte a duas arquiteturas de ingestão. A tabela a seguir compara:

Recurso	Padrão CDC (baseado em gateway)	CDC Integrado (Beta)
Número de pipelines	Dois (gateway de ingestão e pipeline de ingestão)	Um (pipeline unificado)
Configuração	Crie um gateway, então crie um pipeline de ingestão que faz referência ao ID do gateway.	Criar um único pipeline que faça referência a uma conexão do Unity Catalog
Modo Gateway	O gateway é executado continuamente	O pipeline incorpora a extração em cada atualização.
Referência de conexão	`ingestion_gateway_id`	`connection_name` (uma conexão do Unity Catalog)
Tipo de Conector	Implícito	Explícito: `connector_type: CDC`
Volume de preparação	O gateway gerencia o volume de preparação internamente.	É possível configurar o volume de teste através de `data_staging_options`. O pipeline é criado automaticamente se não for especificado.

Recurso	Padrão CDC (baseado em gateway)	CDC Integrado (Beta)
Número de pipelines	Dois (gateway de ingestão e pipeline de ingestão)	Um (pipeline unificado)
Configuração	Crie um gateway, então crie um pipeline de ingestão que faz referência ao ID do gateway.	Criar um único pipeline que faça referência a uma conexão do Unity Catalog
Modo Gateway	O gateway é executado continuamente	O pipeline incorpora a extração em cada atualização.
Referência de conexão	`ingestion_gateway_id`	`connection_name` (uma conexão do Unity Catalog)
Tipo de Conector	Implícito	Explícito: `connector_type: CDC`
Volume de preparação	O gateway gerencia o volume de preparação internamente.	É possível configurar o volume de teste através de `data_staging_options`. O pipeline é criado automaticamente se não for especificado.

A mesma configuração de banco de dados de origem se aplica a ambas as arquiteturas. Consulte Configurar o Microsoft SQL Server para ingestão no Databricks. Para obter mais informações, consulte Criar um pipeline de CDC integrado para SQL Server.

Disponibilidade do recurso

Recurso	Disponibilidade
Criação pipeline baseada em interface de usuário	Apoiado
Criação pipeline baseada em API	Apoiado
Pacotes de Automação Declarativa	Apoiado
Ingestão incremental	Apoiado
Governança Unity Catalog	Apoiado
Orquestração utilizando Jobs do LakeFlow	Apoiado
SCD tipo 2	Apoiado
Seleção e deseleção de colunas baseadas em API	Apoiado
Filtragem de linhas baseada em API	Não suportado
Evolução automatizada do esquema: Colunas novas e excluídas	Apoiado
Evolução automatizada do esquema: mudanças no tipo de dados	Não suportado
Evolução automatizada do esquema: renomeação de colunas	Não suportado Requer uma refresh completa.
Evolução automatizada do esquema: Novas tabelas	Apoiado Se você ingerir todo o esquema. Veja as limitações quanto ao número de tabelas por pipeline.
Número máximo de tabelas por pipeline	250

Recurso	Disponibilidade
Criação pipeline baseada em interface de usuário	Apoiado
Criação pipeline baseada em API	Apoiado
Pacotes de Automação Declarativa	Apoiado
Ingestão incremental	Apoiado
Governança Unity Catalog	Apoiado
Orquestração utilizando Jobs do LakeFlow	Apoiado
SCD tipo 2	Apoiado
Seleção e deseleção de colunas baseadas em API	Apoiado
Filtragem de linhas baseada em API	Não suportado
Evolução automatizada do esquema: Colunas novas e excluídas	Apoiado
Evolução automatizada do esquema: mudanças no tipo de dados	Não suportado
Evolução automatizada do esquema: renomeação de colunas	Não suportado Requer uma refresh completa.
Evolução automatizada do esquema: Novas tabelas	Apoiado Se você ingerir todo o esquema. Veja as limitações quanto ao número de tabelas por pipeline.
Número máximo de tabelas por pipeline	250

Métodos de autenticação

Método de autenticação	Disponibilidade
OAuth U2M	Apoiado
OAuth M2M	Apoiado
OAuth (tokens refresh manual)	Não suportado
Autenticação básica (nome de usuário/senha)	Apoiado
Autenticação básica ( key API )	Não suportado
Autenticação básica ( key JSON da account )	Não suportado

Método de autenticação	Disponibilidade
OAuth U2M	Apoiado
OAuth M2M	Apoiado
OAuth (tokens refresh manual)	Não suportado
Autenticação básica (nome de usuário/senha)	Apoiado
Autenticação básica ( key API )	Não suportado
Autenticação básica ( key JSON da account )	Não suportado

O que você precisa saber antes de começar.

tópico	Por que isso importa
Perfil do usuário do Databricks	O fluxo de trabalho depende do seu perfil de usuário do Databricks: Usuário único: Um usuário administrador configura o banco de dados de origem e cria uma conexão com Unity Catalog , um gateway de ingestão e um pipeline de ingestão. Multiusuário: Um usuário administrador configura o banco de dados de origem e cria uma conexão para que usuários sem privilégios de administrador possam criar pares de gateway e pipeline.
Variação do banco de dados	A configuração do banco de dados de origem depende do ambiente de implantação do SQL Server.
Alterar método	A configuração do banco de dados de origem depende de como você optar por rastrear as alterações na origem.
Método de autenticação	Os passos para criar uma conexão dependem do método de autenticação escolhido.
Interface	Os passos para criar uma conexão, um gateway e um pipeline dependem da interface.
Frequência de ingestão	A programação pipeline depende dos seus requisitos de latência e custo.
Padrões comuns	Dependendo das suas necessidades de ingestão, o pipeline pode usar configurações como acompanhamento de história, seleção de coluna e filtragem de linha. As configurações suportadas variam de acordo com o conector. Consulte a disponibilidade do recurso.

tópico	Por que isso importa
Perfil do usuário do Databricks	O fluxo de trabalho depende do seu perfil de usuário do Databricks: Usuário único: Um usuário administrador configura o banco de dados de origem e cria uma conexão com Unity Catalog , um gateway de ingestão e um pipeline de ingestão. Multiusuário: Um usuário administrador configura o banco de dados de origem e cria uma conexão para que usuários sem privilégios de administrador possam criar pares de gateway e pipeline.
Variação do banco de dados	A configuração do banco de dados de origem depende do ambiente de implantação do SQL Server.
Alterar método	A configuração do banco de dados de origem depende de como você optar por rastrear as alterações na origem.
Método de autenticação	Os passos para criar uma conexão dependem do método de autenticação escolhido.
Interface	Os passos para criar uma conexão, um gateway e um pipeline dependem da interface.
Frequência de ingestão	A programação pipeline depende dos seus requisitos de latência e custo.
Padrões comuns	Dependendo das suas necessidades de ingestão, o pipeline pode usar configurações como acompanhamento de história, seleção de coluna e filtragem de linha. As configurações suportadas variam de acordo com o conector. Consulte a disponibilidade do recurso.

Comece a ingerir dados do SQL Server

A tabela a seguir fornece uma visão geral do fluxo de trabalho de ingestão do SQL Server de ponta a ponta, com base no tipo de usuário:

Usuário	os passos
Administrador	Configure o Microsoft SQL Server para ingestão de dados no Databricks. Qualquer: Use o Catalog Explorer para criar uma conexão para que não administradores possam criar pares gateway-pipeline. Consulte Criar uma conexão com o SQL Server. Utilize a interface de ingestão de dados para criar uma conexão, um gateway e um pipeline. Consulte Ingerir dados do SQL Server.
Não administrativo	Utilize qualquer interface compatível para criar um gateway e um pipeline. Consulte Ingerir dados do SQL Server.

Usuário	os passos
Administrador	Configure o Microsoft SQL Server para ingestão de dados no Databricks. Qualquer: Use o Catalog Explorer para criar uma conexão para que não administradores possam criar pares gateway-pipeline. Consulte Criar uma conexão com o SQL Server. Utilize a interface de ingestão de dados para criar uma conexão, um gateway e um pipeline. Consulte Ingerir dados do SQL Server.
Não administrativo	Utilize qualquer interface compatível para criar um gateway e um pipeline. Consulte Ingerir dados do SQL Server.

CDC padrão vs. CDC integrado​

Disponibilidade do recurso​

Métodos de autenticação​

O que você precisa saber antes de começar.​

Comece a ingerir dados do SQL Server​

CDC padrão vs. CDC integrado

Disponibilidade do recurso

Métodos de autenticação

O que você precisa saber antes de começar.

Comece a ingerir dados do SQL Server