Pular para o conteúdo principal

Conectar-se a fontes de ingestão gerenciais

Este artigo descreve como criar conexões no Catalog Explorer que armazenam detalhes de autenticação para LakeFlow Connect gerenciar fontes de ingestão. Qualquer usuário com privilégios USE CONNECTION ou ALL PRIVILEGES na conexão pode então criar um pipeline de ingestão gerencial a partir de fontes como Salesforce e SQL Server.

Um usuário administrador deve concluir as etapas deste artigo se os usuários que criarão o pipeline:

  • são usuários não administradores.
  • usará Databricks APIs, Databricks SDKs, Databricks CLI ou Databricks ativo Bundles.

Essas interfaces exigem que os usuários especifiquem uma conexão existente ao criar um pipeline.

Como alternativa, os usuários administradores podem criar uma conexão e um pipeline ao mesmo tempo na UI de ingestão de dados. Consulte Conectores em LakeFlow Connect.

LakeFlow Connect vs. Lakehouse Federation

Databricks recomenda a ingestão usando o site LakeFlow Connect porque ele escala para acomodar grandes volumes de dados, consultas de baixa latência e limites de API de terceiros. No entanto, talvez você queira consultar seus dados sem movê-los. A lakehouse Federation permite que o senhor consulte fontes de dados externas sem mover seus dados.

Quando o senhor puder escolher entre LakeFlow Connect e lakehouse Federation, escolha lakehouse Federation para relatórios ad hoc ou trabalho de prova de conceito em seu pipeline ETL. Veja o que é Lakehouse Federation?

Requisitos de privilégios

Os privilégios de usuário necessários para se conectar a uma fonte de ingestão gerenciar dependem da interface que o senhor escolher:

  • UI de ingestão de dados

    Os usuários administradores podem criar uma conexão e um pipeline ao mesmo tempo. Esse assistente de ingestão de ponta a ponta está disponível somente na interface do usuário.

  • Explorador de Catálogos

    O uso do Catalog Explorer separa a criação da conexão da criação do pipeline. Isso permite que os administradores criem conexões para que usuários não administradores criem pipelines.

    Se os usuários que criarão o pipeline não forem administradores ou planejarem usar Databricks APIs, Databricks SDKs, Databricks CLI ou Databricks ativo Bundles, um administrador deverá primeiro criar a conexão no Catalog Explorer. Essas interfaces exigem que os usuários especifiquem uma conexão existente quando criam um pipeline.

Cenário

Interfaces suportadas

Privilégios de usuário necessários

Um usuário administrador cria uma conexão e um pipeline de ingestão ao mesmo tempo.

UI de ingestão de dados

  • CREATE CONNECTION na metastore
  • USE CATALOG no catálogo de destino
  • (Aplicativos SaaS) USE SCHEMA e CREATE TABLE em um esquema existente ou CREATE SCHEMA no catálogo de destino
  • (Bancos de dados) USE SCHEMA, CREATE TABLE e CREATE VOLUME em um esquema existente ou CREATE SCHEMA no catálogo de destino

Um usuário administrador cria uma conexão para usuários não administradores criarem pipeline.

Administrador:

  • Explorador de Catálogos

Não administrador:

  • UI de ingestão de dados
  • APIs da Databricks
  • SDKs da Databricks
  • CLI do Databricks
  • Databricks Asset Bundles

Administrador:

  • CREATE CONNECTION na metastore

Não administrador:

  • USE CONNECTION ou ALL PRIVILEGES em uma conexão existente.
  • USE CATALOG no catálogo de destino
  • (Aplicativos SaaS) USE SCHEMA e CREATE TABLE em um esquema existente ou CREATE SCHEMA no catálogo de destino
  • (Bancos de dados) USE SCHEMA, CREATE TABLE e CREATE VOLUME em um esquema existente ou CREATE SCHEMA no catálogo de destino

Criar uma conexão para gerenciar a ingestão no Catalog Explorer

Esta seção fornece instruções para criar conexões com fontes de ingestão gerencial no Catalog Explorer.

Salesforce ventas Cloud

LakeFlow Connect suporta a ingestão do Salesforce ventas Cloud. Ele não é compatível com o Salesforce Data Cloud, mas o Lakehouse Federation permite que o senhor consulte os dados no Salesforce Data Cloud sem movê-los. Consulte execução de consultas federadas no Salesforce Data Cloud.

Para criar uma conexão de ingestão do Salesforce no Catalog Explorer, faça o seguinte:

  1. No site Databricks workspace, clique em Catalog > External locations > Connections > Create connection .

  2. Na página Noções básicas de conexão do assistente de configuração de conexão , especifique um nome de conexão exclusivo.

  3. No menu suspenso Tipo de conexão, selecione Salesforce.

  4. (Opcional) Adicione um comentário.

  5. Clique em Avançar .

  6. Se o senhor estiver ingerindo de um Salesforce sandbox account, defina Is sandbox para true.

  7. Clique em Entrar com o Salesforce .

    Você é redirecionado para o Salesforce.

  8. Se estiver fazendo a ingestão a partir de uma sandbox do Salesforce, clique em Usar domínio personalizado , forneça o URL da sandbox e clique em Continuar .

    Use o botão de domínio personalizado

    Digite o URL da sandbox

  9. Insira suas credenciais do Salesforce e clique em fazer login . A Databricks recomenda fazer login como um usuário do Salesforce dedicado à ingestão da Databricks.

  10. Depois de retornar ao assistente de ingestão, clique em Criar conexão .

Microsoft SQL Server

Para criar uma conexão com o Microsoft SQL Server no Catalog Explorer, faça o seguinte:

  1. No site Databricks workspace, clique em Catalog > External Data > Connections .
  2. Clique em Criar conexão .
  3. Insira um nome de conexão exclusivo.
  4. Para o tipo de conexão , selecione SQL Server .
  5. Para Host , especifique o nome de domínio do SQL Server.
  6. Para User e Password , digite suas credenciais de login do SQL Server.
  7. Clique em Criar .

Relatórios de dias de trabalho

Para criar uma conexão com o Workday Reports no Catalog Explorer, faça o seguinte:

  1. Crie credenciais de acesso do Workday. Para obter instruções, consulte Configurar relatórios do Workday para ingestão.
  2. No site Databricks workspace, clique em Catalog > External locations > Connections > Create connection .
  3. Em Nome da conexão , insira um nome exclusivo para a conexão Workday.
  4. Em Tipo de conexão , selecione Relatórios de dias úteis .
  5. Para o tipo de autenticação , selecione OAuth refresh tokens e, em seguida, digite o ID do cliente , o segredo do cliente e os tokens de atualização que você criou na etapa 1.
  6. Na página Criar conexão , clique em Criar .

Próxima etapa

Depois de criar uma conexão com a fonte de ingestão gerenciar no Catalog Explorer, qualquer usuário com privilégios USE CONNECTION ou ALL PRIVILEGES na conexão pode criar uma ingestão pipeline das seguintes maneiras:

  • Assistente de ingestão
  • Databricks Asset Bundles
  • APIs da Databricks
  • SDKs da Databricks
  • CLI do Databricks

Para obter instruções sobre como criar um pipeline, consulte a documentação do conector gerenciar.