Pular para o conteúdo principal

Conectar-se a fontes de ingestão gerenciais

Este artigo descreve como criar conexões no Catalog Explorer que armazenam detalhes de autenticação para LakeFlow Connect gerenciar fontes de ingestão. Qualquer usuário com privilégios USE CONNECTION ou ALL PRIVILEGES na conexão pode então criar um pipeline de ingestão gerencial a partir de fontes como Salesforce e SQL Server.

Um usuário administrador deve concluir as etapas deste artigo se os usuários que criarão o pipeline:

  • são usuários não administradores.
  • usará Databricks APIs, Databricks SDKs, Databricks CLI ou Databricks ativo Bundles.

Essas interfaces exigem que os usuários especifiquem uma conexão existente ao criar um pipeline.

Como alternativa, os usuários administradores podem criar uma conexão e um pipeline ao mesmo tempo na UI de ingestão de dados. Consulte gerenciar conectores em LakeFlow Connect.

LakeFlow Connect vs. Lakehouse Federation

A lakehouse Federation permite que o senhor consulte fontes de dados externas sem mover seus dados. Quando o senhor puder escolher entre LakeFlow Connect e lakehouse Federation, escolha lakehouse Federation para relatórios ad hoc ou trabalho de prova de conceito em seu pipeline ETL. Veja o que é Lakehouse Federation?

Requisitos de privilégios

Os privilégios de usuário necessários para se conectar a uma fonte de ingestão gerenciar dependem da interface que o senhor escolher:

  • UI de ingestão de dados

    Os usuários administradores podem criar uma conexão e um pipeline ao mesmo tempo. Esse assistente de ingestão de ponta a ponta está disponível somente na interface do usuário. Nem todos os conectores de ingestão gerencial oferecem suporte à criação de pipeline com base na interface do usuário.

  • Explorador de Catálogos

    O uso do Catalog Explorer separa a criação da conexão da criação do pipeline. Isso permite que os administradores criem conexões para que usuários não administradores criem pipelines.

    Se os usuários que criarão o pipeline não forem administradores ou planejarem usar Databricks APIs, Databricks SDKs, Databricks CLI ou Databricks ativo Bundles, um administrador deverá primeiro criar a conexão no Catalog Explorer. Essas interfaces exigem que os usuários especifiquem uma conexão existente quando criam um pipeline.

Cenário

Interfaces suportadas

Privilégios de usuário necessários

Um usuário administrador cria uma conexão e um pipeline de ingestão ao mesmo tempo.

UI de ingestão de dados

  • CREATE CONNECTION na metastore
  • USE CATALOG no catálogo de destino
  • (Aplicativos SaaS) USE SCHEMA e CREATE TABLE em um esquema existente ou CREATE SCHEMA no catálogo de destino
  • (Bancos de dados) USE SCHEMA, CREATE TABLE e CREATE VOLUME em um esquema existente ou CREATE SCHEMA no catálogo de destino

Um usuário administrador cria uma conexão para usuários não administradores criarem pipeline.

Administrador:

  • Explorador de Catálogos

Não administrador:

  • UI de ingestão de dados
  • APIs da Databricks
  • SDKs da Databricks
  • CLI do Databricks
  • Databricks Asset Bundles

Administrador:

  • CREATE CONNECTION na metastore

Não administrador:

  • USE CONNECTION ou ALL PRIVILEGES em uma conexão existente.
  • USE CATALOG no catálogo de destino
  • (Aplicativos SaaS) USE SCHEMA e CREATE TABLE em um esquema existente ou CREATE SCHEMA no catálogo de destino
  • (Bancos de dados) USE SCHEMA, CREATE TABLE e CREATE VOLUME em um esquema existente ou CREATE SCHEMA no catálogo de destino

Google analítica dados brutos

Para criar uma conexão de dados brutos do Google analítica no Catalog Explorer, faça o seguinte:

  1. No site Databricks workspace, clique em Catalog > External locations > Connections > Create connection .
  2. Na página Noções básicas de conexão do assistente de configuração de conexão , especifique um nome de conexão exclusivo.
  3. No menu suspenso Connection type (Tipo de conexão ), selecione Google analítica dados brutos .
  4. (Opcional) Adicione um comentário.
  5. Clique em Avançar .
  6. No campo service_account_json, cole os detalhes do serviço account JSON que o senhor baixou de BigQuery na configuração de origem.
  7. Clique em Criar conexão .

Salesforce

LakeFlow Connect suporta a ingestão de dados da Salesforce Platform. Databricks também oferece um conector de cópia zero no Lakehouse Federation para executar consultas federadas no Salesforce Data Cloud.

Para criar uma conexão de ingestão do Salesforce no Catalog Explorer, faça o seguinte:

  1. No site Databricks workspace, clique em Catalog > External locations > Connections > Create connection .

  2. Na página Noções básicas de conexão do assistente de configuração de conexão , especifique um nome de conexão exclusivo.

  3. No menu suspenso Tipo de conexão, selecione Salesforce.

  4. (Opcional) Adicione um comentário.

  5. Clique em Avançar .

  6. Se o senhor estiver ingerindo de um Salesforce sandbox account, defina Is sandbox como true.

  7. Clique em Entrar com o Salesforce .

    Você é redirecionado para o Salesforce.

  8. Se estiver fazendo a ingestão a partir de uma sandbox do Salesforce, clique em Usar domínio personalizado , forneça o URL da sandbox e clique em Continuar .

    Use o botão de domínio personalizado

    Digite o URL da sandbox

  9. Insira suas credenciais do Salesforce e clique em fazer login . A Databricks recomenda fazer login como um usuário do Salesforce dedicado à ingestão da Databricks.

important

Por motivos de segurança, só autentique se o senhor tiver clicado em um link OAuth 2.0 na interface do usuário do Databricks.

  1. Depois de retornar ao assistente de ingestão, clique em Criar conexão .

Atenda agora

  1. Configurar o OAuth. Para obter instruções, consulte Configurar o ServiceNow para ingestão do Databricks.

  2. No site Databricks workspace, clique em Catalog > External locations > Connections > Create connection .

  3. Na página Noções básicas de conexão do assistente de configuração de conexão , especifique um nome de conexão exclusivo.

  4. No menu suspenso Tipo de conexão, selecione ServiceNow.

  5. (Opcional) Adicione um comentário.

  6. Clique em Avançar .

  7. Na página Autenticação , digite o seguinte:

    • ID da instância: ID da instância ServiceNow.
    • OAuth escopo: Deixe o valor default useraccount.
    • Segredo do cliente: O segredo do cliente que você obteve na configuração de origem.
    • ID do cliente: a ID do cliente que você obteve na configuração de origem.
  8. Clique em Entrar com o ServiceNow .

  9. Faça login usando suas credenciais do ServiceNow.

    O senhor foi redirecionado para o site Databricks workspace.

  10. Clique em Criar conexão .

SharePoint

As etapas para criar uma conexão do SharePoint no Catalog Explorer dependem do método OAuth que o senhor escolher. Os seguintes métodos são suportados:

  • Autenticação de usuário para máquina (U2M)
  • Tokens manuais refresh authentication

Databricks recomenda o uso do U2M porque ele não exige que o senhor mesmo calcule os tokens refresh. Isso é feito para você automaticamente. Também simplifica o processo de conceder ao cliente Entra ID acesso aos seus arquivos do SharePoint e é mais seguro.

U2M (recomendado)

  1. Conclua a configuração da fonte. Você usará os detalhes de autenticação obtidos para criar a conexão.

  2. No site Databricks workspace, clique em Catalog > External data > Connections > Create connection .

  3. Na página Noções básicas de conexão do assistente de configuração de conexão , especifique um nome de conexão exclusivo.

  4. No menu suspenso Connection type (Tipo de conexão ), selecione Microsoft SharePoint .

  5. No menu suspenso Auth type (Tipo de autenticação ), selecione OAuth .

  6. (Opcional) Adicione um comentário.

  7. Clique em Avançar .

  8. Na página Authentication (Autenticação ), insira as seguintes credenciais para seu aplicativo Microsoft Entra ID:

    • Escopo do OAuth : Deixe o escopo do OAuth definido com o valor pré-preenchido.
    • Segredo do cliente: o segredo do cliente que você recuperou na configuração de origem.
    • ID do cliente : a ID do cliente que você recuperou na configuração de origem.
    • Domínio : O URL da instância do SharePoint no seguinte formato: https://MYINSTANCE.sharepoint.com
    • ID do locatário : A ID tenant que o senhor recuperou na configuração de origem.

    Campos obrigatórios para uma conexão do Unity Catalog que armazena detalhes de autenticação do SharePoint

  9. Clique em Sign in with Microsoft SharePoint .

    Uma nova janela é aberta. Depois de entrar com suas credenciais do SharePoint, as permissões que você está concedendo ao aplicativo Entra ID são mostradas.

  10. Clique em Aceitar .

    É exibida uma mensagem de autorização bem-sucedida e o senhor é redirecionado para o site Databricks workspace.

  11. Clique em Criar conexão .

Manual refresh tokens

  1. Conclua a configuração da fonte. Você usará os detalhes de autenticação obtidos para criar a conexão.

  2. No site Databricks workspace, clique em Catalog > External data > Connections > Create connection .

  3. Na página Noções básicas de conexão do assistente de configuração de conexão , especifique um nome de conexão exclusivo.

  4. No menu suspenso Connection type (Tipo de conexão ), selecione Microsoft SharePoint .

  5. No menu suspenso Auth type (Tipo de autenticação ), selecione OAuth refresh tokens (tokens de atualização ).

  6. (Opcional) Adicione um comentário.

  7. Clique em Avançar .

  8. Na página Authentication (Autenticação ), insira as seguintes credenciais para seu aplicativo Microsoft Entra ID:

    • ID do locatário : A ID tenant que o senhor recuperou na configuração de origem.
    • ID do cliente : a ID do cliente que você recuperou na configuração de origem.
    • Segredo do cliente: o segredo do cliente que você recuperou na configuração de origem.
    • tokens de atualização : Os tokens refresh que o senhor recuperou na configuração de origem.

    Campos obrigatórios para uma conexão Unity Catalog que armazena detalhes de autenticação do SharePoint usando tokens refresh manuais

  9. Clique em Criar conexão .

SQL Server

Para criar uma conexão com o Microsoft SQL Server no Catalog Explorer, faça o seguinte:

  1. No site Databricks workspace, clique em Catalog > External Data > Connections .
  2. Clique em Criar conexão .
  3. Insira um nome de conexão exclusivo.
  4. Para o tipo de conexão , selecione SQL Server .
  5. Para Host , especifique o nome de domínio do SQL Server.
  6. Para User e Password , digite suas credenciais de login do SQL Server.
  7. Clique em Criar .

Relatórios de dias de trabalho

Para criar uma conexão com o Workday Reports no Catalog Explorer, faça o seguinte:

  1. Crie credenciais de acesso do Workday. Para obter instruções, consulte Configurar relatórios do Workday para ingestão.
  2. No site Databricks workspace, clique em Catalog > External locations > Connections > Create connection .
  3. Em Nome da conexão , insira um nome exclusivo para a conexão Workday.
  4. Em Tipo de conexão , selecione Relatórios de dias úteis .
  5. Para o tipo de autenticação , selecione OAuth refresh tokens .
  6. Digite o ID do cliente , o segredo do cliente e os tokens de atualização que o senhor obteve na configuração de origem.
  7. Na página Criar conexão , clique em Criar .

Próxima etapa

Depois de criar uma conexão com a fonte de ingestão gerenciar no Catalog Explorer, qualquer usuário com privilégios USE CONNECTION ou ALL PRIVILEGES na conexão pode criar uma ingestão pipeline das seguintes maneiras:

  • Assistente de ingestão (somente conectores compatíveis)
  • Databricks Asset Bundles
  • APIs da Databricks
  • SDKs da Databricks
  • CLI do Databricks

Para obter instruções sobre como criar um pipeline, consulte a documentação do conector gerenciar.