Pular para o conteúdo principal

Conector do GitHub

info

Beta

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.

O conector GitHub do LakeFlow Connect permite que você importe dados do GitHub para o Databricks.

O que você precisa saber antes de começar.

tópico

Por que isso importa

Perfil do usuário do Databricks

O fluxo de trabalho depende do seu perfil de usuário do Databricks:

  • Usuário único: Um usuário administrador cria uma conexão com Unity Catalog e um pipeline de ingestão.
  • Multiusuário: Um usuário administrador cria uma conexão para que usuários sem privilégios de administrador possam criar pipelines.

Método de autenticação

Os passos para criar uma conexão dependem do método de autenticação escolhido.

Interface

Os passos para criar um pipeline dependem da interface.

Frequência de ingestão

A programação pipeline depende dos seus requisitos de latência e custo.

Padrões comuns

Dependendo das suas necessidades de ingestão, o pipeline pode usar configurações como acompanhamento de história, seleção de coluna e filtragem de linha. As configurações suportadas variam de acordo com o conector. Consulte a disponibilidade do recurso.

começar a ingerir do GitHub

A tabela a seguir resume o fluxo de ingestão do GitHub de ponta a ponta, com base no tipo de usuário:

Usuário

os passos

Administrador

  1. Configure o GitHub para habilitar a autenticação do Databricks. Consulte Configurar OAuth U2M para ingestão do GitHub.
  2. Qualquer:
    • Use o Catalog Explorer para criar uma conexão com GitHub para que usuários sem privilégios de administrador possam criar pipelines. See GitHub.
    • Utilize a interface de ingestão de dados para criar uma conexão e um pipeline simultaneamente. Veja Ingerir dados do GitHub.

Não administrativo

Utilize qualquer interface compatível para criar um pipeline a partir de uma conexão existente. Veja Ingerir dados do GitHub.

Disponibilidade do recurso

Recurso

Disponibilidade

Criação pipeline baseada em interface de usuário

Sim, marcado como certo Apoiado

Criação pipeline baseada em API

Sim, marcado como certo Apoiado

Pacotes de Automação Declarativa

Sim, marcado como certo Apoiado

Ingestão incremental

Sim, marcado como certo Parcialmente apoiado

Algumas tabelas suportam ingestão incremental. Outras tabelas requerem uma refresh completa. Consulte os dados suportados.

Governança Unity Catalog

Sim, marcado como certo Apoiado

Jobs do Lakeflow

Sim, marcado como certo Apoiado

SCD tipo 2

Sim, marcado como certo Apoiado

Seleção e deseleção de colunas

Sim, marcado como certo Apoiado

Filtragem de linhas baseada em API

marca x não Não suportado

Evolução automatizada do esquema: Colunas novas e excluídas

marca x não Não suportado

Evolução automatizada do esquema: mudanças no tipo de dados

marca x não Não suportado

Evolução automatizada do esquema: renomeação de colunas

marca x não Não suportado

Evolução automatizada do esquema: Novas tabelas

marca x não Não suportado

Métodos de autenticação

Método de autenticação

Disponibilidade

OAuth U2M

Sim, marcado como certo Apoiado

OAuth M2M

marca x não Não suportado

OAuth (tokens refresh manual)

marca x não Não suportado

Autenticação básica (nome de usuário/senha)

marca x não Não suportado

Autenticação básica ( key API )

marca x não Não suportado

Autenticação básica ( key JSON da account )

marca x não Não suportado