Use um conector da comunidade registrado

info

Beta

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.

Esta página mostra como usar um conector de comunidade registrado para importar dados de uma fonte compatível para o Databricks. Para criar um conector personalizado para uma origem que ainda não é suportada, consulte Criar um conector personalizado.

Requisitos

Um espaço de trabalho do Databricks com o Unity Catalog habilitado
Uma conexão para a fonte que você deseja ingerir ou permissões para criar uma conexão.
Acesso de escrita a um catálogo e esquema para as tabelas ingeridas.

Crie um pipeline de ingestão.

Para usar um conector de comunidade registrado:

Na barra lateral do seu workspace Databricks , clique em +Novo > Adicionar ou upload dados e, em seguida, selecione a fonte em Conectores da comunidade .
Clique em + Criar conexão ou selecione uma conexão existente e, em seguida, clique em Avançar .
No campo "Nome do pipeline" , insira um nome para o pipeline.
Em "Local do log de eventos" , insira um nome de catálogo e um nome de esquema. Databricks armazena o log de eventos pipeline aqui. As tabelas ingeridas também são gravadas aqui por default.
Em Caminho raiz , insira o caminho do seu workspace (por exemplo, /Workspace/Users/<your-email>/connectors). O Databricks clona e armazena o código-fonte do conector aqui.
Clique em Criar pipeline .

No editor de pipeline, abra ingest.py e atualize o campo de objetos para incluir as tabelas que você deseja ingerir. Por exemplo:

Python
from databricks.labs.community_connector.pipeline import ingest

pipeline_spec = {
    "connection_name": "my_stripe_connection",  # Required: UC connection name
    "objects": [
        {"table": {"source_table": "charges"}},
        {"table": {"source_table": "customers",
                   "destination_table": "stripe_customers"}},
    ],
}

ingest(spark, pipeline_spec)

executar o pipeline manualmente ou programá-lo.

Opções de configuração do pipeline

Você pode configurar as seguintes opções em ingest.py:

Opção	Descrição
`connection_name`	Obrigatório. O nome da conexão que armazena as credenciais de autenticação da origem.
`objects`	Obrigatório. Uma lista de tabelas a serem ingeridas. Cada entrada tem o formato `{"table": {"source_table": "..."}}`. Você também pode especificar um `destination_table` opcional dentro do objeto `table` .
`destination_catalog`	O catálogo onde as tabelas ingeridas são gravadas. Por padrão, utiliza-se o catálogo definido durante a criação pipeline .
`destination_schema`	O esquema onde as tabelas ingeridas são gravadas. Por padrão, será utilizado o esquema definido durante a criação pipeline .
`scd_type`	A estratégia de dimensões que mudam lentamente (SCD): `SCD_TYPE_1`, `SCD_TYPE_2` ou `APPEND_ONLY`. por padrão é `SCD_TYPE_1`.
`primary_keys`	Substituir a chave primária default de uma tabela. Forneça uma lista com os nomes das colunas.

Requisitos​

Crie um pipeline de ingestão.​

Opções de configuração do pipeline​

Requisitos

Crie um pipeline de ingestão.

Opções de configuração do pipeline