Pular para o conteúdo principal

Limitações do conector Confluence

info

Visualização

O conector do Confluence está em versão Beta.

Este artigo lista as limitações e considerações para a ingestão de dados do Confluence usando Databricks LakeFlow Connect.

Limitações gerais do conector SaaS

As limitações desta seção aplicam-se a todos os conectores SaaS no LakeFlow Connect.

  • Ao executar um pipeline agendado, os alertas não são acionados imediatamente. Em vez disso, elas são acionadas na próxima execução da atualização.
  • Quando uma tabela de origem é excluída, a tabela de destino não é excluída automaticamente. Você deve excluir a tabela de destino manualmente. Esse comportamento não é consistente com o comportamento do pipeline declarativo LakeFlow Spark .
  • Durante períodos de manutenção da fonte de dados, o Databricks poderá não conseguir acessar seus dados.
  • Se o nome de uma tabela de origem entrar em conflito com o nome de uma tabela de destino existente, a atualização do pipeline falhará.
  • O suporte pipeline com múltiplos destinos é feito exclusivamente via API.
  • Opcionalmente, você pode renomear uma tabela que você importa. Se você renomear uma tabela em seu pipeline, ele se tornará um pipeline somente para API e você não poderá mais editá- pipeline na interface do usuário.
  • A seleção e a deseleção em nível de coluna são exclusivas da API.
  • Se você selecionar uma coluna depois que um pipeline já tiver sido iniciado, o conector não preencherá automaticamente os dados da nova coluna. Para ingerir dados históricos, execute manualmente uma refresh completa na tabela.
  • O Databricks não consegue ingerir duas ou mais tabelas com o mesmo nome no mesmo pipeline, mesmo que elas provenham de esquemas de origem diferentes.
  • O sistema de origem pressupõe que as colunas do cursor estejam em ordem crescente monotônica.
  • Com o SCD tipo 1 ativado, as exclusões não produzem um evento delete explícito no feed de dados de alteração. Para exclusões auditáveis, use o tipo SCD 2 se o conector o suportar. Para obter detalhes, consulte o exemplo: Processamento de SCD tipo 1 e SCD tipo 2 com dados de origem CDF.
  • O conector ingere dados brutos sem transformações. Use o pipeline declarativo LakeFlow Spark downstream para transformações.

Limitações específicas do conector

As limitações descritas nesta seção são específicas do conector Confluence.

Dados suportados

O conector importa apenas as seguintes tabelas do Confluence:

  • pages
  • spaces
  • labels
  • classification_levels
  • blogposts
  • attachments

Modo de implantação

O conector suporta apenas o Confluence Cloud.

ingestão de ACL

O conector não suporta atualmente a ingestão de ACLs do Confluence. Da mesma forma, o conector não aciona a reingestão quando as ACLs de uma fonte de dados são alteradas.

oleoduto

A criação pipeline baseada em interface de usuário não é suportada. Você deve usar a CLI Databricks , APIs, SDKs ou Databricks Ativo Bundles para criar um pipeline.

Ingestão de conteúdo

  • Os arquivos anexos não são importados. Apenas os metadados do anexo (nome do arquivo, tamanho, tipo de conteúdo, data de upload) são incluídos nos dados ingeridos.
  • Os comentários da página não são incluídos. Apenas o conteúdo da página e os metadados estão incluídos.
  • Os espaços arquivados não são importados. Apenas os espaços ativos são incluídos no pipeline de ingestão.

limites de taxa da API

  • O conector está sujeito aos limites de taxa da API do Confluence. Se você exceder os limites de taxa, o pipeline poderá ficar mais lento ou falhar temporariamente. O conector tenta novamente automaticamente com recuo exponencial.
  • Databricks recomenda a execução pipeline programáticos fora dos horários de pico para minimizar o impacto dos limites de taxa.

Autenticação

Considerações sobre desempenho

  • A execução inicial pipeline (Snapshot completo) pode demorar mais em instâncias grandes do Confluence com muitas páginas.
  • O desempenho da ingestão incremental depende do número de páginas modificadas desde a última execução.
  • Páginas grandes com conteúdo extenso ou muitos anexos podem demorar mais para serem carregadas.

As seguintes limitações aplicam-se a alterações que não são refletidas no cursor:

  • Para tabelas com ingestão incremental, o conector suporta exclusões lógicas (por exemplo, registros que são movidos para a lixeira no Confluence). No entanto, não suporta exclusões permanentes (por exemplo, registros que são "excluídos" no Confluence). Para que as exclusões definitivas sejam refletidas, você deve executar uma refresh completa do pipeline.

    Quando um espaço é excluído, todas as suas páginas e anexos são excluídos permanentemente. Portanto, essas exclusões não são refletidas nas tabelas de destino. No entanto, quando uma página principal é excluída de forma lógica, todas as suas páginas filhas e anexos são excluídos nas tabelas de destino.

  • O conteúdo arquivado para tabelas incrementais não é suportado.

  • Quando uma página ou uma postagem de blog é movida de um espaço para outro ou de um pai para outro, o spaceId correspondente não é atualizado.

  • Registros restaurados: Se você restaurar uma página ou uma postagem de blog após excluí-la na origem, o conector não a reincorporará.