Pular para o conteúdo principal

Use um conector da comunidade registrado

info

Beta

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.

Esta página mostra como usar um conector de comunidade registrado para importar dados de uma fonte compatível para o Databricks. Para criar um conector personalizado para uma origem que ainda não é suportada, consulte Criar um conector personalizado.

Requisitos

  • Um espaço de trabalho do Databricks com o Unity Catalog habilitado
  • Uma conexão para a fonte que você deseja ingerir ou permissões para criar uma conexão.
  • Acesso de escrita a um catálogo e esquema para as tabelas ingeridas.

Crie um pipeline de ingestão.

Para usar um conector de comunidade registrado:

  1. Na barra lateral do seu workspace Databricks , clique em +Novo > Adicionar ou upload dados e, em seguida, selecione a fonte em Conectores da comunidade .

  2. Clique em + Criar conexão ou selecione uma conexão existente e, em seguida, clique em Avançar .

  3. No campo "Nome do pipeline" , insira um nome para o pipeline.

  4. Em "Local do log de eventos" , insira um nome de catálogo e um nome de esquema. Databricks armazena o log de eventos pipeline aqui. As tabelas ingeridas também são gravadas aqui por default.

  5. Em Caminho raiz , insira o caminho do seu workspace (por exemplo, /Workspace/Users/<your-email>/connectors). O Databricks clona e armazena o código-fonte do conector aqui.

  6. Clique em Criar pipeline .

  7. No editor de pipeline, abra ingest.py e atualize o campo de objetos para incluir as tabelas que você deseja ingerir. Por exemplo:

    Python
    from databricks.labs.community_connector.pipeline import ingest

    pipeline_spec = {
    "connection_name": "my_stripe_connection", # Required: UC connection name
    "objects": [
    {"table": {"source_table": "charges"}},
    {"table": {"source_table": "customers",
    "destination_table": "stripe_customers"}},
    ],
    }

    ingest(spark, pipeline_spec)
  8. executar o pipeline manualmente ou programá-lo.

Opções de configuração do pipeline

Você pode configurar as seguintes opções em ingest.py:

Opção

Descrição

connection_name

Obrigatório. O nome da conexão que armazena as credenciais de autenticação da origem.

objects

Obrigatório. Uma lista de tabelas a serem ingeridas. Cada entrada tem o formato {"table": {"source_table": "..."}}. Você também pode especificar um destination_table opcional dentro do objeto table .

destination_catalog

O catálogo onde as tabelas ingeridas são gravadas. Por padrão, utiliza-se o catálogo definido durante a criação pipeline .

destination_schema

O esquema onde as tabelas ingeridas são gravadas. Por padrão, será utilizado o esquema definido durante a criação pipeline .

scd_type

A estratégia de dimensões que mudam lentamente (SCD): SCD_TYPE_1, SCD_TYPE_2 ou APPEND_ONLY. por padrão é SCD_TYPE_1.

primary_keys

Substituir a chave primária default de uma tabela. Forneça uma lista com os nomes das colunas.