Pular para o conteúdo principal

Limitações do conector GitHub

info

Beta

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.

Esta página contém informações sobre as limitações conhecidas do conector GitHub no LakeFlow Connect.

Limitações gerais

  • Ao executar um pipeline agendado, os alertas não são acionados imediatamente. Em vez disso, elas são acionadas na próxima execução da atualização.
  • Quando uma tabela de origem é excluída, a tabela de destino não é excluída automaticamente. Você deve excluir a tabela de destino manualmente. Esse comportamento não é consistente com o comportamento do pipeline declarativo LakeFlow Spark .
  • Durante períodos de manutenção da fonte de dados, o Databricks poderá não conseguir acessar seus dados.
  • Se o nome de uma tabela de origem entrar em conflito com o nome de uma tabela de destino existente, a atualização do pipeline falhará.
  • O suporte pipeline com múltiplos destinos é feito exclusivamente via API.
  • Opcionalmente, você pode renomear uma tabela que você importa. Se você renomear uma tabela em seu pipeline, ele se tornará um pipeline somente para API e você não poderá mais editá- pipeline na interface do usuário.
  • A seleção e a deseleção em nível de coluna são exclusivas da API.
  • Se você selecionar uma coluna depois que um pipeline já tiver sido iniciado, o conector não preencherá automaticamente os dados da nova coluna. Para ingerir dados históricos, execute manualmente uma refresh completa na tabela.
  • O Databricks não consegue ingerir duas ou mais tabelas com o mesmo nome no mesmo pipeline, mesmo que elas provenham de esquemas de origem diferentes.
  • O sistema de origem pressupõe que as colunas do cursor estejam em ordem crescente monotônica.
  • O conector ingere dados brutos sem transformações. Use o pipeline declarativo LakeFlow Spark downstream para transformações.

Exclusões não suportadas

O conector do GitHub não suporta a recuperação de exclusões. Essa é uma limitação da API do GitHub.

Suporte incremental limitado

A maioria das tabelas não suporta atualizações incrementais porque a API do GitHub não oferece uma maneira de filtrar registros com base em um cursor. Essas tabelas são totalmente atualizadas a cada atualização do pipeline. Para obter uma lista das tabelas e seus padrões de atualização, consulte Dados suportados.

Orientações de desempenho para grandes organizações

Tabelas como commits, pull_requests e issues podem conter milhões de registros em grandes organizações. Como essas tabelas são totalmente atualizadas a cada execução pipeline , o custo de ingestão aumenta com o tamanho da organização e a frequência pipeline .

Para reduzir o volume por execução:

  • Utilize a seleção de colunas para limitar as colunas incluídas nessas tabelas.
  • Utilize uma frequência pipeline menor para pipelines que incluam tabelas de alto volume.

Dados suportados

Tabelas com atualizações incrementais

As tabelas a seguir suportam atualizações incrementais:

  • repositories
  • audit_logs: Somente para contas de organização. No plano gratuito github.com , o histórico log de auditoria é limitado a 90 dias.

Tabelas com atualizações de lotes apenas

As tabelas a seguir são totalmente atualizadas a cada atualização do pipeline (não incremental):

  • branches
  • collaborators
  • commits
  • deployments
  • deployment_statuses
  • discussions
  • issues
  • labels
  • milestones
  • org_members
  • pull_request_commits
  • pull_request_review_comments
  • pull_request_reviews
  • pull_requests
  • releases
  • tags
  • team_members
  • teams
  • workflows