gerenciar conector FAQs
Este artigo responde a perguntas frequentes sobre como gerenciar conectores em Databricks LakeFlow Connect.
Qual é a diferença entre gerenciar conectores, Lakehouse Federation e Delta Sharing?
A lakehouse Federation permite que o senhor consulte fontes de dados externas sem mover seus dados. O Delta Sharing permite que o senhor compartilhe com segurança dados em tempo real entre plataformas, nuvens e regiões. Databricks recomenda a ingestão usando conectores gerenciáveis, pois eles se adaptam a grandes volumes de dados, consultas de baixa latência e limites de API de terceiros. No entanto, talvez você queira consultar seus dados sem movê-los.
Quando o senhor puder escolher entre gerenciar conectores, lakehouse Federation e Delta Sharing, escolha Delta Sharing para os seguintes cenários:
- Limitar a duplicação de dados.
- Consultando os dados mais recentes possíveis.
Escolha a Lakehouse Federation para os seguintes cenários:
- Relatórios ad hoc ou trabalho de prova de conceito em seu pipeline ETL.
Qual é a diferença entre gerenciar conectores e Auto Loader?
Os conectores gerenciar permitem que o senhor ingira dados de forma incremental a partir de aplicativos SaaS como o Salesforce e bancos de dados como o SQL Server. O Auto Loader é um conector de armazenamento de objetos em nuvem que permite a ingestão incremental de arquivos à medida que eles chegam ao S3, ADLS e GCS. É compatível com transmissão estruturada e DLT, mas não oferece pipeline de ingestão totalmente gerenciado.
Os conectores gerenciar podem gravar de volta em aplicativos e bancos de dados de terceiros?
Não. Se o senhor estiver interessado nessa funcionalidade, entre em contato com a equipe do account.
O que é SCD tipo 1 vs. tipo 2?
A configuração dimensões que mudam lentamente (SCD) (SCD) determina como lidar com as mudanças nos dados ao longo do tempo. Ative o SCD tipo 1 (história acompanhamento off) para substituir registros desatualizados à medida que são atualizados e excluídos na origem. Ative o SCD tipo 2 (história acompanhamento on) para manter um histórico dessas alterações. Observe que a exclusão de uma tabela ou coluna não exclui esses dados do destino, mesmo quando o SCD tipo 1 está selecionado.
Nem todos os conectores suportam o histórico de acompanhamento (SCD type 2).
Qual é o custo para gerenciar conectores?
Os conectores gerenciar têm um modelo de preços baseado em compute.
SaaS Fontes como Salesforce e Workday, que executam exclusivamente na infraestrutura serverless, incorrem em encargos serverless DLT DBU .
Para fontes de banco de dados como SQL Server, os gateways de ingestão podem ser executados no modo clássico ou no modo serverless, dependendo da fonte, e o pipeline de ingestão pode ser executado em serverless. Como resultado, o senhor pode receber tanto a cobrança clássica quanto a serverless DLT DBU .
Para obter detalhes sobre a taxa, consulte a página de preços da DLT.
Salesforce
O conector de ingestão do Salesforce é compatível com o Salesforce Data Cloud?
O conector de ingestão do Salesforce é compatível com o Salesforce Ventas Cloud. Ele não é compatível com o Salesforce Data Cloud, mas o Lakehouse Federation permite que o senhor consulte os dados no Salesforce Data Cloud sem movê-los. Consulte execução de consultas federadas no Salesforce Data Cloud.
Atenda agora
Como o conector extrai dados do ServiceNow?
O conector-nome do conector usa a ServiceNow Table API v2.
O uso da API de tabela pode afetar a instância do ServiceNow?
Sim. No entanto, o impacto depende da quantidade de dados ingeridos. Por exemplo, normalmente é mais perceptível no Snapshot inicial do que durante uma leitura incremental.
Por que meu desempenho de ingestão do ServiceNow está lento?
A Databricks recomenda trabalhar com o administrador do ServiceNow para ativar a indexação do lado do ServiceNow no campo do cursor. A coluna do cursor é selecionada na lista a seguir, em ordem de disponibilidade e preferência: sys_updated_on
(primeira opção), sys_created_on
(segunda opção), sys_archived
(terceira opção). Essa é uma abordagem padrão para melhorar o desempenho ao fazer a ingestão usando as APIs do ServiceNow. A definição do índice permite que o Databricks evite a varredura completa de toda a coluna sys_updated_on
, o que pode causar gargalos em grandes atualizações. Para obter instruções, consulte Criar um índice de tabela na documentação do ServiceNow. Se o problema persistir, crie um ticket de suporte.
Microsoft SQL Server
Como a Databricks se conecta ao SQL Server?
A Databricks se conecta ao SQL Server usando a segurança da camada de transporte (TLS). As credenciais são armazenadas de forma segura dentro do Unity Catalog e só podem ser recuperadas se o usuário que estiver executando o fluxo de ingestão tiver as permissões adequadas. É preciso criar um usuário separado em SQL Server para a ingestão de dados e, se houver bancos de dados ou tabelas que o senhor não queira que estejam disponíveis, poderá usar as permissões do integrada SQL Server para garantir que o usuário de ingestão não tenha acesso a essas entidades.
Essa é uma conexão unidirecional?
Sim. Não há suporte para ETL reverso.
Se o pipeline falhar, a ingestão será retomada sem perda de dados?
Sim. A Databricks mantém o controle do que extraímos da origem e do que aplicamos no destino. Se algo acontecer, o Databricks pode ser retomado nesse ponto.