Pular para o conteúdo principal

Crie um pipeline de ingestão do Confluence.

info

Visualização

O conector do Confluence está em versão Beta.

Esta página descreve como criar um pipeline de ingestão do Confluence usando Databricks LakeFlow Connect. As seguintes interfaces são suportadas:

  • Databricks Asset Bundles
  • APIs do Databricks
  • SDKs do Databricks
  • CLI do Databricks

Antes de começar

Para criar o pipeline de ingestão, você deve atender aos seguintes requisitos:

  • Seu workspace deve estar habilitado para o Unity Catalog.

  • compute sem servidor (serverless compute) deve estar habilitado para seu workspace. Consulte os requisitos compute sem servidor.

  • Se você planeja criar uma nova conexão: Você deve ter privilégios CREATE CONNECTION no metastore.

    Se o conector suportar a criação pipeline baseada em interface de usuário, um administrador poderá criar a conexão e o pipeline simultaneamente, concluindo os passos desta página. No entanto, se os usuários que criam pipelines utilizarem a criação pipeline baseada em API ou não forem administradores, um administrador deverá primeiro criar a conexão no Catalog Explorer. Consulte Conectar para gerenciar fontes de ingestão.

  • Se você planeja usar uma conexão existente: Você deve ter privilégios USE CONNECTION ou ALL PRIVILEGES no objeto de conexão.

  • Você deve ter privilégios USE CATALOG no catálogo de destino.

  • Você deve ter privilégios USE SCHEMA e CREATE TABLE em um esquema existente ou privilégios CREATE SCHEMA no catálogo de destino.

Para importar dados do Confluence, consulte Configurar OAuth U2M para importação de dados do Confluence.

Crie o pipeline de ingestão.

Você precisa ter USE CONNECTION ou ALL PRIVILEGES em uma conexão para criar um pipeline de ingestão.

Este passo descreve como criar o pipeline de ingestão. Cada tabela ingerida é gravada em uma tabela de transmissão com o mesmo nome.

  1. Crie um novo pacote usando a CLI do Databricks:

    Bash
    databricks bundle init
  2. Adicione dois novos arquivos de recursos ao pacote:

    • Um arquivo de definição de pipeline (resources/confluence_pipeline.yml).
    • Um arquivo de fluxo de trabalho que controla a frequência de ingestão de dados (resources/confluence_job.yml).

    Segue abaixo um exemplo de arquivo resources/confluence_pipeline.yml :

    YAML
    variables:
    dest_catalog:
    default: main
    dest_schema:
    default: ingest_destination_schema

    # The main pipeline for confluence_dab
    resources:
    pipelines:
    pipeline_confluence:
    name: confluence_pipeline
    catalog: ${var.dest_catalog}
    target: ${var.dest_schema}
    ingestion_definition:
    connection_name: confluence_connection
    objects:
    - table:
    source_schema: default
    source_table: pages
    destination_catalog: ${var.dest_catalog}
    destination_schema: ${var.dest_schema}
    destination_table: <table-name>

    Segue abaixo um exemplo de arquivo resources/confluence_job.yml :

    YAML
    resources:
    jobs:
    confluence_dab_job:
    name: confluence_dab_job

    trigger:
    # Run this job every day, exactly one day from the last run
    # See https://docs.databricks.com/api/workspace/jobs/create#trigger
    periodic:
    interval: 1
    unit: DAYS

    email_notifications:
    on_failure:
    - <email-address>

    tasks:
    - task_key: refresh_pipeline
    pipeline_task:
    pipeline_id: ${resources.pipelines.pipeline_confluence.id}
  3. Implante o pipeline usando a CLI Databricks :

    Bash
    databricks bundle deploy

Próximos passos

Recursos adicionais