Ingerir dados do Confluence

Aprenda como criar um pipeline de ingestão do Confluence gerenciado usando Databricks LakeFlow Connect.

Requisitos

Para criar um pipeline de ingestão, você deve primeiro atender aos seguintes requisitos:
- Seu workspace deve estar habilitado para o Unity Catalog.
- compute sem servidor (serverless compute) deve estar habilitado para seu workspace. Consulte os requisitos compute sem servidor.
- Para criar uma nova conexão, é preciso ter privilégios CREATE CONNECTION no metastore. Consulte Gerenciar privilégios no Unity Catalog.
  
  Se o conector suportar a criação pipeline baseada em interface de usuário, um administrador poderá criar a conexão e o pipeline simultaneamente, concluindo os passos desta página. No entanto, se os usuários que criam pipelines utilizarem a criação pipeline baseada em API ou não forem administradores, um administrador deverá primeiro criar a conexão no Catalog Explorer. Consulte Conectar para gerenciar fontes de ingestão.
- Para usar uma conexão existente, é preciso ter os privilégios USE CONNECTION ou ALL PRIVILEGES no objeto de conexão.
- Você deve ter privilégios USE CATALOG no catálogo de destino.
- Você deve ter privilégios USE SCHEMA e CREATE TABLE em um esquema existente ou privilégios CREATE SCHEMA no catálogo de destino.
Para ingerir do Confluence, conclua primeiro os passos em Criar uma conexão do Confluence.

Crie um pipeline de ingestão.

Cada tabela de origem é inserida em uma tabela de transmissão. Para obter uma lista das tabelas de origem compatíveis, consulte Dados compatíveis.

Databricks UI
Declarative Automation Bundles
Databricks notebook

Na barra lateral do workspace do Databricks , clique em ingestão de dados .
Na página Adicionar dados , em Conectores do Databricks , clique em Confluence .
Na página de Conexão do assistente de ingestão, selecione a conexão que armazena suas credenciais de acesso do Confluence. Se você tiver o privilégio CREATE CONNECTION no metastore, você pode clicar em Criar conexão para criar uma nova conexão com os detalhes de autenticação em Criar uma conexão com o Confluence.
Clique em Avançar .
Na página de configuração de ingestão , insira um nome exclusivo para o pipeline.
Selecione um catálogo e um esquema para gravar logs de eventos. Se você tiver privilégios USE CATALOG e CREATE SCHEMA no catálogo, poderá clicar. Para criar um novo esquema, clique em "Criar esquema" no menu suspenso.
Clique em Criar pipeline e continue .
Na página Origem , selecione as tabelas que deseja importar.
Clique em Salvar e continuar .
Na página Destino , selecione um catálogo e um esquema para carregar os dados. Se você tiver privilégios USE CATALOG e CREATE SCHEMA no catálogo, poderá clicar. Para criar um novo esquema, clique em "Criar esquema" no menu suspenso.
Clique em Salvar e continuar .
(Opcional) Na página de programação e notificações , clique em Criar programar . Defina a frequência de refresh das tabelas de destino.
(Opcional) Clique Adicione uma notificação para configurar notificações email para operações pipeline bem-sucedidas ou com falha e, em seguida, clique em Salvar e execute pipeline .

Utilize pacotes de automação declarativa para gerenciar o pipeline do Confluence como código. Os pacotes podem conter definições YAML de Job e tarefa, são gerenciados usando a CLI Databricks e podem ser compartilhados e executados em diferentes espaços de trabalho de destino (como desenvolvimento, teste e produção). Para mais informações, consulte O que são pacotes de automação declarativa?.

Crie um pacote usando a CLI do Databricks:
Bash
```
databricks bundle init
```
Adicione dois novos arquivos de recursos ao pacote:
- Um arquivo de definição de pipeline (por exemplo, resources/confluence_pipeline.yml). Consulte pipeline.ingestion_definition e exemplos.
- Um arquivo de definição de trabalho que controla a frequência de ingestão de dados (por exemplo, resources/confluence_job.yml).
Implante o pipeline usando a CLI Databricks :
Bash
```
databricks bundle deploy
```

Exemplos

Utilize esses exemplos para configurar seu pipeline.

Ingerir uma única tabela de origem

Declarative Automation Bundles
Databricks notebook

O seguinte arquivo de definição de pipeline ingere uma única tabela de origem:

YAML
variables:
  dest_catalog:
    default: main
  dest_schema:
    default: ingest_destination_schema

# The main pipeline for confluence_dab
resources:
  pipelines:
    pipeline_confluence:
      name: confluence_pipeline
      catalog: ${var.dest_catalog}
      schema: ${var.dest_schema}
      ingestion_definition:
        connection_name: <confluence-connection>
        objects:
          # An array of objects to ingest from Confluence. This example ingests the pages table.
          - table:
              source_schema: default
              source_table: pages
              destination_catalog: ${var.dest_catalog}
              destination_schema: ${var.dest_schema}

Segue abaixo um exemplo de especificação de pipeline que ingere uma única tabela de origem:

Python
pipeline_spec = """
{
  "name": "<pipeline-name>",
  "ingestion_definition": {
    "connection_name": "<confluence-connection>",
    "objects": [
      {
        "table": {
          "source_schema": "default",
          "source_table": "pages",
          "destination_catalog": "main",
          "destination_schema": "ingest_destination_schema"
        }
      }
    ]
  },
  "channel": "PREVIEW"
}
"""
create_pipeline(pipeline_spec)

Ingerir várias tabelas de origem

Declarative Automation Bundles
Databricks notebook

O seguinte arquivo de definição de pipeline ingere várias tabelas de origem:

YAML
variables:
  dest_catalog:
    default: main
  dest_schema:
    default: ingest_destination_schema

# The main pipeline for confluence_dab
resources:
  pipelines:
    pipeline_confluence:
      name: confluence_pipeline
      catalog: ${var.dest_catalog}
      schema: ${var.dest_schema}
      ingestion_definition:
        connection_name: <confluence-connection>
        objects:
          # An array of objects to ingest from Confluence. This example ingests the pages and blogposts tables.
          - table:
              source_schema: default
              source_table: pages
              destination_catalog: ${var.dest_catalog}
              destination_schema: ${var.dest_schema}
          - table:
              source_schema: default
              source_table: blogposts
              destination_catalog: ${var.dest_catalog}
              destination_schema: ${var.dest_schema}

Segue abaixo um exemplo de especificação de pipeline que ingere múltiplas tabelas de origem:

Python
pipeline_spec = """
{
  "name": "<pipeline-name>",
  "ingestion_definition": {
    "connection_name": "<confluence-connection>",
    "objects": [
      {
        "table": {
          "source_schema": "default",
          "source_table": "pages",
          "destination_catalog": "main",
          "destination_schema": "ingest_destination_schema"
        }
      },
      {
        "table": {
          "source_schema": "default",
          "source_table": "blogposts",
          "destination_catalog": "main",
          "destination_schema": "ingest_destination_schema"
        }
      }
    ]
  },
  "channel": "PREVIEW"
}
"""
create_pipeline(pipeline_spec)

Arquivo de definição de tarefas do Declarative Automation Bundles

Declarative Automation Bundles

Segue abaixo um exemplo de arquivo de definição de tarefa para uso com pacotes de automação declarativa. A execução do trabalho ocorre todos os dias, exatamente um dia após a última execução.

YAML
resources:
  jobs:
    confluence_dab_job:
      name: confluence_dab_job

      trigger:
        periodic:
          interval: 1
          unit: DAYS

      email_notifications:
        on_failure:
          - <email-address>

      tasks:
        - task_key: refresh_pipeline
          pipeline_task:
            pipeline_id: ${resources.pipelines.pipeline_confluence.id}

Filtrar por espaço

Você pode filtrar os dados ingeridos para espaços específicos do Confluence adicionando connector_options.confluence_options a qualquer objeto de tabela na definição do seu pipeline. Especifique a chave de espaço exata em include_confluence_spaces. As teclas de espaço diferenciam maiúsculas de minúsculas e são diferentes dos nomes dos espaços.

Para encontrar key do seu espaço, navegue até qualquer página do espaço e verifique o URL. É o identificador curto que segue /space/ ou /display/. Como alternativa, navegue até Ferramentas do espaço > Visão geral > Detalhes do espaço para view a key.

Para obter mais informações, consulte a tecla Espaço na documentação do Confluence.

nota

A filtragem de espaço não é suportada para as tabelas labels e attachments . A API do Confluence não identifica de qual espaço esses objetos se originam, portanto, include_confluence_spaces é ignorado quando labels ou attachments é ingerido.

Declarative Automation Bundles
Databricks notebook

YAML
- table:
    source_schema: default
    source_table: pages
    destination_catalog: ${var.dest_catalog}
    destination_schema: ${var.dest_schema}
    connector_options:
      confluence_options:
        include_confluence_spaces:
          - KEY1
          - KEY2

Python
pipeline_spec = """
{
  "name": "<pipeline-name>",
  "ingestion_definition": {
    "connection_name": "<confluence-connection>",
    "objects": [
      {
        "table": {
          "source_schema": "default",
          "source_table": "pages",
          "destination_catalog": "main",
          "destination_schema": "ingest_destination_schema",
          "connector_options": {
            "confluence_options": {
              "include_confluence_spaces": ["KEY1", "KEY2"]
            }
          }
        }
      }
    ]
  }
}
"""
create_pipeline(pipeline_spec)

Padrões comuns

Para configurações avançadas pipeline , consulte Padrões comuns para gerenciar pipeline de ingestão.

Próximos passos

começar, programar e definir alerta em seu pipeline. Consulte Tarefa comum de manutenção pipeline.

Requisitos​

Crie um pipeline de ingestão.​

Exemplos​

Ingerir uma única tabela de origem​

Ingerir várias tabelas de origem​

Arquivo de definição de tarefas do Declarative Automation Bundles​

Filtrar por espaço​

Padrões comuns​

Próximos passos​

Recursos adicionais​