Pular para o conteúdo principal

gerenciar conector FAQs

Este artigo responde a perguntas frequentes sobre como gerenciar conectores em Databricks LakeFlow Connect.

Qual é a diferença entre gerenciar conectores, Lakehouse Federation e Delta Sharing?

A lakehouse Federation permite que o senhor consulte fontes de dados externas sem mover seus dados. O Delta Sharing permite que o senhor compartilhe com segurança dados em tempo real entre plataformas, nuvens e regiões. Databricks recomenda a ingestão usando conectores gerenciáveis, pois eles se adaptam a grandes volumes de dados, consultas de baixa latência e limites de API de terceiros. No entanto, talvez você queira consultar seus dados sem movê-los.

Quando o senhor puder escolher entre gerenciar conectores, lakehouse Federation e Delta Sharing, escolha Delta Sharing para os seguintes cenários:

  • Limitar a duplicação de dados.
  • Consultando os dados mais recentes possíveis.

Escolha a Lakehouse Federation para os seguintes cenários:

  • Relatórios ad hoc ou trabalho de prova de conceito em seu pipeline ETL.

Qual é a diferença entre gerenciar conectores e Auto Loader?

Os conectores gerenciar permitem que o senhor ingira dados de forma incremental a partir de aplicativos SaaS como o Salesforce e bancos de dados como o SQL Server. O Auto Loader é um conector de armazenamento de objetos em nuvem que permite a ingestão incremental de arquivos à medida que eles chegam ao S3, ADLS e GCS. É compatível com transmissão estruturada e DLT, mas não oferece pipeline de ingestão totalmente gerenciado.

Os conectores gerenciar podem gravar de volta em aplicativos e bancos de dados de terceiros?

Não. Se o senhor estiver interessado nessa funcionalidade, entre em contato com a equipe do account.

O que é SCD tipo 1 vs. tipo 2?

A configuração dimensões que mudam lentamente (SCD) (SCD) determina como lidar com as mudanças nos dados ao longo do tempo. Ative o SCD tipo 1 (história acompanhamento off) para substituir registros desatualizados à medida que são atualizados e excluídos na origem. Ative o SCD tipo 2 (história acompanhamento on) para manter um histórico dessas alterações. Observe que a exclusão de uma tabela ou coluna não exclui esses dados do destino, mesmo quando o SCD tipo 1 está selecionado.

Nem todos os conectores suportam o histórico de acompanhamento (SCD type 2).

Qual é o custo para gerenciar conectores?

Os conectores gerenciar têm um modelo de preços baseado em compute.

SaaS Fontes como Salesforce e Workday, que executam exclusivamente na infraestrutura serverless, incorrem em encargos serverless DLT DBU .

Para fontes de banco de dados como SQL Server, os gateways de ingestão podem ser executados no modo clássico ou no modo serverless, dependendo da fonte, e o pipeline de ingestão pode ser executado em serverless. Como resultado, o senhor pode receber tanto a cobrança clássica quanto a serverless DLT DBU .

Para obter detalhes sobre a taxa, consulte a página de preços da DLT.

Salesforce

O conector de ingestão do Salesforce é compatível com o Salesforce Data Cloud?

O conector de ingestão do Salesforce é compatível com o Salesforce Ventas Cloud. Ele não é compatível com o Salesforce Data Cloud, mas o Lakehouse Federation permite que o senhor consulte os dados no Salesforce Data Cloud sem movê-los. Consulte execução de consultas federadas no Salesforce Data Cloud.

Atenda agora

Como o conector extrai dados do ServiceNow?

O conector-nome do conector usa a ServiceNow Table API v2.

O uso da API de tabela pode afetar a instância do ServiceNow?

Sim. No entanto, o impacto depende da quantidade de dados ingeridos. Por exemplo, normalmente é mais perceptível no Snapshot inicial do que durante uma leitura incremental.

Por que meu desempenho de ingestão do ServiceNow está lento?

A Databricks recomenda trabalhar com o administrador do ServiceNow para ativar a indexação do lado do ServiceNow no campo do cursor. A coluna do cursor é selecionada na lista a seguir, em ordem de disponibilidade e preferência: sys_updated_on (primeira opção), sys_created_on (segunda opção), sys_archived (terceira opção). Essa é uma abordagem padrão para melhorar o desempenho ao fazer a ingestão usando as APIs do ServiceNow. A definição do índice permite que o Databricks evite a varredura completa de toda a coluna sys_updated_on, o que pode causar gargalos em grandes atualizações. Para obter instruções, consulte Criar um índice de tabela na documentação do ServiceNow. Se o problema persistir, crie um ticket de suporte.

Microsoft SQL Server

Como a Databricks se conecta ao SQL Server?

A Databricks se conecta ao SQL Server usando a segurança da camada de transporte (TLS). As credenciais são armazenadas de forma segura dentro do Unity Catalog e só podem ser recuperadas se o usuário que estiver executando o fluxo de ingestão tiver as permissões adequadas. É preciso criar um usuário separado em SQL Server para a ingestão de dados e, se houver bancos de dados ou tabelas que o senhor não queira que estejam disponíveis, poderá usar as permissões do integrada SQL Server para garantir que o usuário de ingestão não tenha acesso a essas entidades.

Essa é uma conexão unidirecional?

Sim. Não há suporte para ETL reverso.

Se o pipeline falhar, a ingestão será retomada sem perda de dados?

Sim. A Databricks mantém o controle do que extraímos da origem e do que aplicamos no destino. Se algo acontecer, o Databricks pode ser retomado nesse ponto.