Pular para o conteúdo principal

Ingira dados do Salesforce

Este artigo descreve como ingerir dados do Salesforce e carregá-los em Databricks usando LakeFlow Connect. A ingestão resultante pipeline é administrada por Unity Catalog e é alimentada por serverless compute e DLT.

O conector de ingestão do Salesforce é compatível com a seguinte fonte:

  • Salesforce ventas Cloud

Antes de começar

Para criar um pipeline de ingestão, o senhor deve atender aos seguintes requisitos:

  • Seu workspace está habilitado para Unity Catalog.

  • O compute sem servidor está habilitado para o seu workspace. Consulte Ativar serverless compute .

  • Se você planeja criar uma conexão: Você tem privilégios CREATE CONNECTION na metastore.

    Se você planeja usar uma conexão existente: Você tem privilégios USE CONNECTION ou ALL PRIVILEGES no objeto de conexão.

  • Você tem privilégios USE CATALOG no catálogo de destino.

  • Você tem privilégios USE SCHEMA e CREATE TABLE em um esquema existente ou privilégios CREATE SCHEMA no catálogo de destino.

Para ingerir a partir do Salesforce ventas Cloud, recomenda-se o seguinte:

  • (Recomendado) Crie um usuário do Salesforce que o Databricks possa usar para recuperar dados. Certifique-se de que o usuário tenha acesso à API e a todos os objetos que o senhor planeja ingerir.

Crie uma conexão com o Salesforce

Permissões necessárias: CREATE CONNECTION na metastore. Entre em contato com um administrador da metastore para conceder isso.

Se quiser criar um pipeline de ingestão usando uma conexão existente, pule para a seção a seguir. Você precisa de USE CONNECTION ou ALL PRIVILEGES na conexão.

Para criar uma conexão com o Salesforce, faça o seguinte:

  1. No site Databricks workspace, clique em Catalog > External locations > Connections > Create connection .

  2. Em Nome da conexão , especifique um nome exclusivo para a conexão do Salesforce.

  3. Em Tipo de conexão , clique em Salesforce .

  4. Se o senhor estiver ingerindo a partir de um Salesforce sandbox account, defina Is sandbox como true.

  5. Clique em fazer login com o Salesforce .

    Login do Salesforce

  6. Se estiver fazendo a ingestão a partir de uma sandbox do Salesforce, clique em Usar domínio personalizado . Forneça o URL sandbox e, em seguida, prossiga para log in. A Databricks recomenda fazer login como um usuário do Salesforce dedicado à ingestão da Databricks.

    Use o botão de domínio personalizado

    Digite o URL da sandbox

  7. Depois de retornar à página Criar conexão , clique em Criar .

Criar um pipeline de ingestão

Permissões necessárias: USE CONNECTION ou ALL PRIVILEGES em uma conexão.

Esta etapa descreve como criar o pipeline de ingestão. Cada tabela ingerida corresponde a uma tabela de transmissão com o mesmo nome (mas tudo em letras minúsculas) no destino por default, a menos que o senhor a renomeie explicitamente.

  1. In the sidebar of the Databricks workspace, click Data Ingestion.

  2. On the Add data page, under Databricks connectors, click Salesforce.

    The Salesforce ingestion wizard opens.

  3. On the Pipeline page of the wizard, enter a unique name for the ingestion pipeline.

  4. In the Destination catalog dropdown, select a catalog. Ingested data and event logs will be written to this catalog.

  5. Select the Unity Catalog connection that stores the credentials required to access Salesforce data.

    If there are no Salesforce connections, click Create connection. You must have the CREATE CONNECTION privilege on the metastore.

  6. Click Create pipeline and continue.

  7. On the Source page, select the Salesforce tables to ingest into Databricks, and then click Next.

    If you select All tables, the Salesforce ingestion connector writes all existing and future tables in the source schema to Unity Catalog managed tables.

  8. On the Destination page, select the Unity Catalog catalog and schema to write to.

    If you don’t want to use an existing schema, click Create schema. You must have the USE CATALOG and CREATE SCHEMA privileges on the parent catalog.

  9. Click Save pipeline and continue.

  10. On the Settings page, click Create schedule. Set the frequency to refresh the destination tables.

  11. Optionally, set email notifications for pipeline operation success or failure.

  12. Click Save and run pipeline.

começar, programar e definir alertas em seu pipeline

  1. Depois que o pipeline tiver sido criado, acesse novamente o Databricks workspace e clique em pipeline .

    O novo pipeline aparece na lista pipeline.

  2. Para acessar view os detalhes de pipeline, clique no nome pipeline.

  3. Na página de detalhes do pipeline, o senhor pode programar o pipeline clicando em programar .

  4. Para definir notificações no pipeline, clique em Settings (Configurações ) e, em seguida, adicione uma notificação.

nota

Na execução do pipeline, o senhor poderá ver duas visualizações de origem para uma determinada tabela. Um view contém o Snapshot para campos de fórmula. O outro view contém os pulls de dados incrementais para campos sem fórmula. Essas visualizações são unidas na tabela de destino.