Pular para o conteúdo principal

Ingerir dados do Veeva Vault

info

Beta

Este recurso está em Beta. Os administradores de workspace podem controlar o acesso a este recurso na página **Pré-visualizações**. Consulte Gerenciar prévias do Databricks.

Esta página mostra como criar um pipeline de ingestão gerenciado do Veeva Vault usando o Lakeflow Connect.

Requisitos

  • Para criar um pipeline de ingestão, primeiro atenda aos seguintes requisitos:

    • Seu workspace deve estar habilitado para o Unity Catalog.

    • O compute serverless deve ser habilitado para seu workspace. Consulte requisitos do compute serverless.

    • Se planear criar uma nova conexão: É preciso ter privilégios CREATE CONNECTION no metastore. Consulte Gerenciar privilégios no Unity Catalog.

      Se o conector oferecer suporte à criação de pipeline baseada em UI, um administrador poderá criar a conexão e o pipeline ao mesmo tempo, concluindo os passos nesta página. No entanto, se os usuários que criam pipelines usarem a criação de pipeline baseada em API ou forem usuários não administradores, um administrador deve primeiro criar a conexão no Catalog Explorer. Consulte Conectar-se a fontes de ingestão gerenciadas.

    • Se você planeja usar uma conexão existente: você deve ter os privilégios USE CONNECTION ou ALL PRIVILEGES no objeto de conexão.

    • É necessário ter os privilégios USE CATALOG no catálogo de destino.

    • Você deve ter os privilégios USE SCHEMA e CREATE TABLE em um esquema existente ou os privilégios CREATE SCHEMA no catálogo de destino.

  • Para importar dados do Veeva Vault, primeiro configure a autenticação no Databricks e crie uma conexão. Consulte Configurar o Veeva Vault para autenticação M2M OAuth 2.0 e Criar uma conexão com o Veeva Vault.

Criar um pipeline de ingestão

  1. Na barra lateral do workspace do Databricks, clique em Ingestão de Dados .

  2. Na página Adicionar dados , em Conectores Databricks , clique em Veeva Vault .

  3. Na página **Conexão** do assistente de ingestão, selecione a conexão que armazena suas credenciais do Veeva Vault. Se você tiver o privilégio CREATE CONNECTION no metastore, clique em Ícone de mais. Criar conexão para criar uma conexão com as credenciais de Configurar o Veeva Vault para autenticação M2M do OAuth 2.0.

  4. Clique em Avançar .

  5. Na página Configuração de ingestão , insira um nome para o pipeline.

  6. Selecione um catálogo e um esquema para gravar logs de eventos. Se você tiver os privilégios USE CATALOG e CREATE SCHEMA no catálogo, clique em Ícone de mais. Criar esquema no menu suspenso para criar um esquema.

  7. Clique em **Criar pipeline e continuar**.

  8. Na página Origem , selecione os objetos para ingestão.

  9. Clique em Salvar e continuar.

  10. Na página Destino , selecione um catálogo e um esquema para carregar dados. Se você tiver os privilégios USE CATALOG e CREATE SCHEMA no catálogo, clique em Ícone de mais. Criar esquema no menu suspenso para criar um esquema.

  11. Clique em Salvar e continuar.

  12. (Opcional) Na página **Agendamentos e notificações**, Ícone de mais. clique em ** Criar agendamento**. Defina a frequência para refresh as tabelas de destino.

nota

A Veeva gera arquivos incrementais a cada 15 minutos. A programação de um pipeline para execução com mais frequência do que a cada 15 minutos não produz dados adicionais.

  1. (Optional) Click Ícone de mais. Add notification to set email notifications for pipeline operation success or failure, then click Save and run pipeline .

Exemplos

Objetos do Veeva Vault são expostos no esquema de origem default. Ingira objetos individuais ou o esquema inteiro.

Ingestão de objetos específicos

Use esta opção para ingerir um subconjunto específico de objetos ou para personalizar a nomenclatura de destino por objeto.

O arquivo de definição de pipeline a seguir ingere objetos individuais do Veeva Vault:

YAML
resources:
pipelines:
veeva_vault_pipeline:
name: veeva_vault_pipeline
catalog: 'main'
target: 'veeva_data'
ingestion_definition:
connection_name: veeva_vault_connection
objects:
- table:
source_schema: 'default'
source_table: 'opportunity__v'
destination_catalog: 'main'
destination_schema: 'veeva_data'
destination_table: 'opportunity'
- table:
source_schema: 'default'
source_table: 'account__v'
destination_catalog: 'main'
destination_schema: 'veeva_data'
destination_table: 'account'

Ingerir todos os objetos

Use this option to ingest all Veeva Vault objects into a single destination schema with one declaration.

O seguinte arquivo de definição de pipeline ingere todos os objetos compatíveis do Veeva Vault em um esquema de destino:

YAML
resources:
pipelines:
veeva_vault_pipeline:
name: veeva_vault_pipeline
catalog: 'main'
target: 'veeva_data'
ingestion_definition:
connection_name: veeva_vault_connection
objects:
- schema:
source_schema: 'default'
destination_catalog: 'main'
destination_schema: 'veeva_data'

Arquivo de definição de Job de Pacotes de Automação Declarativa

A seguir, um exemplo de arquivo de definição de Job para uso com Pacotes de Automação Declarativa. O Job é de execução diariamente.

YAML
resources:
jobs:
veeva_vault_job:
name: veeva_vault_job
schedule:
quartz_cron_expression: '0 0 0 * * ?'
timezone_id: 'UTC'
tasks:
- task_key: veeva_vault_ingestion
pipeline_task:
pipeline_id: ${resources.pipelines.veeva_vault_pipeline.id}

Common patterns

Para configurações avançadas de pipeline, consulte Padrões comuns para pipelines de ingestão gerenciados.

Próximos os passos

Start, schedule, and set alerts on your pipeline. See Common pipeline maintenance tasks.

Recursos adicionais