Ingerir dados do Pendo
Beta
Este recurso está em Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Pré-visualizações . Consulte Gerenciar prévias do Databricks.
Esta página mostra como criar um pipeline de ingestão Pendo gerenciado usando LakeFlow Connect.
Requisitos
-
Para criar um pipeline de ingestão, você deve primeiro atender aos seguintes requisitos:
-
Seu workspace deve estar habilitado para o Unity Catalog.
-
O compute serverless deve ser habilitado para seu workspace. Consulte Requisitos de computação serverless.
-
Para criar uma nova conexão, é preciso ter os privilégios
CREATE CONNECTIONno metastore. Consulte Gerenciar privilégios no Unity Catalog.Se o conector suportar a criação de pipelines baseada na IU, um administrador poderá criar a conexão e o pipeline simultaneamente, ao concluir os passos nesta página. No entanto, se os usuários que criam pipelines usam a autoria de pipeline baseada em API ou são usuários não administradores, um administrador deve primeiro criar a conexão no Catalog Explorer. Consulte Conectar-se a fontes de ingestão gerenciadas.
-
Para usar uma conexão existente: é preciso ter os privilégios
USE CONNECTIONouALL PRIVILEGESno objeto de conexão. -
Você deve ter privilégios
USE CATALOGno catálogo de destino. -
É necessário ter os privilégios
USE SCHEMAeCREATE TABLEem um esquema existente ou os privilégiosCREATE SCHEMAno catálogo de destino.
-
-
Para ingerir do Pendo, é preciso primeiro configurar a autenticação do Databricks. Consulte Configurar Pendo para ingestão gerenciada.
Criar pipeline de ingestão
- Databricks UI
- Declarative Automation Bundles
- Databricks notebook
- Na barra lateral do workspace do Databricks, clique em Ingestão de dados .
- Na página **Adicionar dados**, em **Conectores do Databricks**, clique em **Pendo**.
- Na página Conexão do assistente de ingestão, selecione a conexão que armazena suas credenciais de acesso Pendo. Se você tem o privilégio
CREATE CONNECTIONno metastore, você pode clicar emCriar conexão para criar uma nova conexão com os detalhes de autenticação em Criar uma conexão Pendo.
- Clique em Avançar .
- Na página de Configuração de Ingestão , insira um nome exclusivo para o pipeline.
- Selecione um catálogo e um esquema onde os logs de eventos serão gravados. Se houver os privilégios
USE CATALOGeCREATE SCHEMAno catálogo, pode-se clicar emCriar esquema no menu suspenso para criar um novo esquema.
- Clique em **Criar pipeline e continuar**.
- Na **Página de Origem**, selecione as tabelas para ingestão.
- Clique em Salvar e continuar .
- Na página Destino , selecione um catálogo e um esquema para carregar dados. Se houver os privilégios
USE CATALOGeCREATE SCHEMAno catálogo, pode-se clicar emCriar esquema no menu suspenso para criar um novo esquema.
- Clique em Salvar e continuar .
- (Opcional) Na página Cronogramas e notificações , clique em
Crie um agendamento . Defina a frequência para fazer o refresh das tabelas de destino.
- (Opcional) Clique em
Adicionar notificação para configurar notificações por email para sucesso ou falha da operação do pipeline e, em seguida, clique em Salvar e executar pipeline .
Use os Pacotes de Automação Declarativa para gerenciar pipelines Pendo como código. Os pacotes podem conter definições YAML de Jobs e tarefas, são gerenciados usando a CLI do Databricks e podem ser compartilhados e executados em diferentes workspaces de destino (como desenvolvimento, preparo e produção). Para obter mais informações, consulte O que são Pacotes de Automação Declarativa?.
-
Crie um pacote utilizando a CLI do Databricks:
Bashdatabricks bundle init -
Adicione dois novos arquivos de recurso ao pacote:
- Um arquivo de definição de pipeline (por exemplo,
resources/pendo_pipeline.yml). Veja pipeline.definição_de_ingestão e Exemplos. - Um arquivo de definição de Job que controla a frequência da ingestão de dados (por exemplo,
resources/pendo_job.yml).
- Um arquivo de definição de pipeline (por exemplo,
-
Implante o pipeline usando a CLI do Databricks:
Bashdatabricks bundle deploy
- Importe o seguinte notebook em seu workspace do Databricks:
-
Deixe as células um e dois como estão. Não modifique.
-
Modificar a célula três com os detalhes da configuração do pipeline. Veja pipeline.ingestion_definition e Exemplos.
-
Configure as configurações avançadas do pipeline (opcional). Consulte Padrões comuns para pipelines de ingestão gerenciados.
-
Clique em Executar tudo .
Exemplos
Use estes exemplos para configurar seu pipeline.
Ingerir o esquema inteiro
- Declarative Automation Bundles
- Databricks notebook
O arquivo de definição de pipeline a seguir ingere todas as tabelas Pendo compatíveis em um esquema de destino:
resources:
pipelines:
pendo_pipeline:
name: pendo_pipeline
catalog: 'main'
target: 'pendo_data'
ingestion_definition:
connection_name: pendo_connection
objects:
- schema:
source_schema: 'default'
destination_catalog: 'main'
destination_schema: 'pendo_data'
A especificação de pipeline a seguir ingere todas as tabelas Pendo compatíveis em um esquema de destino:
pipeline_name = "pendo_pipeline"
connection_name = "<pendo-connection>"
pipeline_spec = {
"name": pipeline_name,
"ingestion_definition": {
"connection_name": connection_name,
"objects": [
{
"schema": {
"source_schema": "default",
"destination_catalog": "main",
"destination_schema": "pendo_data"
}
}
]
}
}
json_payload = json.dumps(pipeline_spec, indent=2)
create_pipeline(json_payload)
Ingerir tabelas específicas
Ingerir tabelas individuais do Pendo. Para uma lista completa de tabelas suportadas, consulte tabelas de origem suportadas.
- Declarative Automation Bundles
- Databricks notebook
O seguinte arquivo de definição de pipeline ingere tabelas Pendo individuais.
resources:
pipelines:
pendo_pipeline:
name: pendo_pipeline
catalog: 'main'
target: 'pendo_data'
ingestion_definition:
connection_name: pendo_connection
objects:
- table:
source_schema: 'default'
source_table: 'page'
destination_catalog: 'main'
destination_schema: 'pendo_data'
destination_table: 'page'
- table:
source_schema: 'default'
source_table: 'feature'
destination_catalog: 'main'
destination_schema: 'pendo_data'
destination_table: 'feature'
- table:
source_schema: 'default'
source_table: 'guide'
destination_catalog: 'main'
destination_schema: 'pendo_data'
destination_table: 'guide'
- table:
source_schema: 'default'
source_table: 'report'
destination_catalog: 'main'
destination_schema: 'pendo_data'
destination_table: 'report'
A seguinte especificação de pipeline ingere tabelas Pendo individuais:
pipeline_name = "pendo_pipeline"
connection_name = "<pendo-connection>"
pipeline_spec = {
"name": pipeline_name,
"ingestion_definition": {
"connection_name": connection_name,
"objects": [
{
"table": {
"source_schema": "default",
"source_table": "page",
"destination_catalog": "main",
"destination_schema": "pendo_data",
"destination_table": "page"
}
},
{
"table": {
"source_schema": "default",
"source_table": "feature",
"destination_catalog": "main",
"destination_schema": "pendo_data",
"destination_table": "feature"
}
},
{
"table": {
"source_schema": "default",
"source_table": "guide",
"destination_catalog": "main",
"destination_schema": "pendo_data",
"destination_table": "guide"
}
},
{
"table": {
"source_schema": "default",
"source_table": "report",
"destination_catalog": "main",
"destination_schema": "pendo_data",
"destination_table": "report"
}
}
]
}
}
json_payload = json.dumps(pipeline_spec, indent=2)
create_pipeline(json_payload)
Arquivo de definição de Job de Pacotes de Automação Declarativa
- Declarative Automation Bundles
resources:
jobs:
pendo_job:
name: pendo_job
schedule:
quartz_cron_expression: '0 0 0 * * ?'
timezone_id: 'UTC'
tasks:
- task_key: pendo_ingestion
pipeline_task:
pipeline_id: ${resources.pipelines.pendo_pipeline.id}
Padrões comuns
Para configurações avançadas de pipeline, consulte Padrões comuns para pipelines de ingestão gerenciados.
Passos seguintes
Iniciar, programar e definir alertas no seu pipeline. Veja Tarefas comuns de manutenção de pipelines.