Ingerir dados do Pendo

info

Beta

Este recurso está em Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Pré-visualizações . Consulte Gerenciar prévias do Databricks.

Esta página mostra como criar um pipeline de ingestão Pendo gerenciado usando LakeFlow Connect.

Requisitos

Para criar um pipeline de ingestão, você deve primeiro atender aos seguintes requisitos:
- Seu workspace deve estar habilitado para o Unity Catalog.
- O compute serverless deve ser habilitado para seu workspace. Consulte Requisitos de computação serverless.
- Para criar uma nova conexão, é preciso ter os privilégios CREATE CONNECTION no metastore. Consulte Gerenciar privilégios no Unity Catalog.
  
  Se o conector suportar a criação de pipelines baseada na IU, um administrador poderá criar a conexão e o pipeline simultaneamente, ao concluir os passos nesta página. No entanto, se os usuários que criam pipelines usam a autoria de pipeline baseada em API ou são usuários não administradores, um administrador deve primeiro criar a conexão no Catalog Explorer. Consulte Conectar-se a fontes de ingestão gerenciadas.
- Para usar uma conexão existente: é preciso ter os privilégios USE CONNECTION ou ALL PRIVILEGES no objeto de conexão.
- Você deve ter privilégios USE CATALOG no catálogo de destino.
- É necessário ter os privilégios USE SCHEMA e CREATE TABLE em um esquema existente ou os privilégios CREATE SCHEMA no catálogo de destino.
Para ingerir do Pendo, é preciso primeiro configurar a autenticação do Databricks. Consulte Configurar Pendo para ingestão gerenciada.

Criar pipeline de ingestão

Databricks UI
Declarative Automation Bundles
Databricks notebook

Na barra lateral do workspace do Databricks, clique em Ingestão de dados .
Na página **Adicionar dados**, em **Conectores do Databricks**, clique em **Pendo**.
Na página Conexão do assistente de ingestão, selecione a conexão que armazena suas credenciais de acesso Pendo. Se você tem o privilégio CREATE CONNECTION no metastore, você pode clicar em Criar conexão para criar uma nova conexão com os detalhes de autenticação em Criar uma conexão Pendo.
Clique em Avançar .
Na página de Configuração de Ingestão , insira um nome exclusivo para o pipeline.
Selecione um catálogo e um esquema onde os logs de eventos serão gravados. Se houver os privilégios USE CATALOG e CREATE SCHEMA no catálogo, pode-se clicar em Criar esquema no menu suspenso para criar um novo esquema.
Clique em **Criar pipeline e continuar**.
Na **Página de Origem**, selecione as tabelas para ingestão.
Clique em Salvar e continuar .
Na página Destino , selecione um catálogo e um esquema para carregar dados. Se houver os privilégios USE CATALOG e CREATE SCHEMA no catálogo, pode-se clicar em Criar esquema no menu suspenso para criar um novo esquema.
Clique em Salvar e continuar .
(Opcional) Na página Cronogramas e notificações , clique em Crie um agendamento . Defina a frequência para fazer o refresh das tabelas de destino.
(Opcional) Clique em Adicionar notificação para configurar notificações por email para sucesso ou falha da operação do pipeline e, em seguida, clique em Salvar e executar pipeline .

Use os Pacotes de Automação Declarativa para gerenciar pipelines Pendo como código. Os pacotes podem conter definições YAML de Jobs e tarefas, são gerenciados usando a CLI do Databricks e podem ser compartilhados e executados em diferentes workspaces de destino (como desenvolvimento, preparo e produção). Para obter mais informações, consulte O que são Pacotes de Automação Declarativa?.

Crie um pacote utilizando a CLI do Databricks:
Bash
```
databricks bundle init
```
Adicione dois novos arquivos de recurso ao pacote:
- Um arquivo de definição de pipeline (por exemplo, resources/pendo_pipeline.yml). Veja pipeline.definição_de_ingestão e Exemplos.
- Um arquivo de definição de Job que controla a frequência da ingestão de dados (por exemplo, resources/pendo_job.yml).
Implante o pipeline usando a CLI do Databricks:
Bash
```
databricks bundle deploy
```

Exemplos

Use estes exemplos para configurar seu pipeline.

Ingerir o esquema inteiro

Declarative Automation Bundles
Databricks notebook

O arquivo de definição de pipeline a seguir ingere todas as tabelas Pendo compatíveis em um esquema de destino:

YAML
resources:
  pipelines:
    pendo_pipeline:
      name: pendo_pipeline
      catalog: 'main'
      target: 'pendo_data'
      ingestion_definition:
        connection_name: pendo_connection
        objects:
          - schema:
              source_schema: 'default'
              destination_catalog: 'main'
              destination_schema: 'pendo_data'

A especificação de pipeline a seguir ingere todas as tabelas Pendo compatíveis em um esquema de destino:

Python
pipeline_name = "pendo_pipeline"
connection_name = "<pendo-connection>"
pipeline_spec = {
  "name": pipeline_name,
  "ingestion_definition": {
    "connection_name": connection_name,
    "objects": [
      {
        "schema": {
          "source_schema": "default",
          "destination_catalog": "main",
          "destination_schema": "pendo_data"
        }
      }
    ]
  }
}
json_payload = json.dumps(pipeline_spec, indent=2)
create_pipeline(json_payload)

Ingerir tabelas específicas

Ingerir tabelas individuais do Pendo. Para uma lista completa de tabelas suportadas, consulte tabelas de origem suportadas.

Declarative Automation Bundles
Databricks notebook

O seguinte arquivo de definição de pipeline ingere tabelas Pendo individuais.

YAML
resources:
  pipelines:
    pendo_pipeline:
      name: pendo_pipeline
      catalog: 'main'
      target: 'pendo_data'
      ingestion_definition:
        connection_name: pendo_connection
        objects:
          - table:
              source_schema: 'default'
              source_table: 'page'
              destination_catalog: 'main'
              destination_schema: 'pendo_data'
              destination_table: 'page'
          - table:
              source_schema: 'default'
              source_table: 'feature'
              destination_catalog: 'main'
              destination_schema: 'pendo_data'
              destination_table: 'feature'
          - table:
              source_schema: 'default'
              source_table: 'guide'
              destination_catalog: 'main'
              destination_schema: 'pendo_data'
              destination_table: 'guide'
          - table:
              source_schema: 'default'
              source_table: 'report'
              destination_catalog: 'main'
              destination_schema: 'pendo_data'
              destination_table: 'report'

A seguinte especificação de pipeline ingere tabelas Pendo individuais:

Python
pipeline_name = "pendo_pipeline"
connection_name = "<pendo-connection>"
pipeline_spec = {
  "name": pipeline_name,
  "ingestion_definition": {
    "connection_name": connection_name,
    "objects": [
      {
        "table": {
          "source_schema": "default",
          "source_table": "page",
          "destination_catalog": "main",
          "destination_schema": "pendo_data",
          "destination_table": "page"
        }
      },
      {
        "table": {
          "source_schema": "default",
          "source_table": "feature",
          "destination_catalog": "main",
          "destination_schema": "pendo_data",
          "destination_table": "feature"
        }
      },
      {
        "table": {
          "source_schema": "default",
          "source_table": "guide",
          "destination_catalog": "main",
          "destination_schema": "pendo_data",
          "destination_table": "guide"
        }
      },
      {
        "table": {
          "source_schema": "default",
          "source_table": "report",
          "destination_catalog": "main",
          "destination_schema": "pendo_data",
          "destination_table": "report"
        }
      }
    ]
  }
}
json_payload = json.dumps(pipeline_spec, indent=2)
create_pipeline(json_payload)

Arquivo de definição de Job de Pacotes de Automação Declarativa

Declarative Automation Bundles

YAML
resources:
  jobs:
    pendo_job:
      name: pendo_job
      schedule:
        quartz_cron_expression: '0 0 0 * * ?'
        timezone_id: 'UTC'
      tasks:
        - task_key: pendo_ingestion
          pipeline_task:
            pipeline_id: ${resources.pipelines.pendo_pipeline.id}

Padrões comuns

Para configurações avançadas de pipeline, consulte Padrões comuns para pipelines de ingestão gerenciados.

Passos seguintes

Iniciar, programar e definir alertas no seu pipeline. Veja Tarefas comuns de manutenção de pipelines.

Requisitos​

Criar pipeline de ingestão​

Exemplos​

Ingerir o esquema inteiro​

Ingerir tabelas específicas​

Arquivo de definição de Job de Pacotes de Automação Declarativa​

Padrões comuns​

Passos seguintes​

Recursos adicionais​