Use um conector da comunidade registrado
Beta
Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.
Esta página mostra como usar um conector de comunidade registrado para importar dados de uma fonte compatível para o Databricks. Para criar um conector personalizado para uma origem que ainda não é suportada, consulte Criar um conector personalizado.
Requisitos
- Um espaço de trabalho do Databricks com o Unity Catalog habilitado
- Uma conexão para a fonte que você deseja ingerir ou permissões para criar uma conexão.
- Acesso de escrita a um catálogo e esquema para as tabelas ingeridas.
Crie um pipeline de ingestão.
Para usar um conector de comunidade registrado:
-
Na barra lateral do seu workspace Databricks , clique em +Novo > Adicionar ou upload dados e, em seguida, selecione a fonte em Conectores da comunidade .
-
Clique em + Criar conexão ou selecione uma conexão existente e, em seguida, clique em Avançar .
-
No campo "Nome do pipeline" , insira um nome para o pipeline.
-
Em "Local do log de eventos" , insira um nome de catálogo e um nome de esquema. Databricks armazena o log de eventos pipeline aqui. As tabelas ingeridas também são gravadas aqui por default.
-
Em Caminho raiz , insira o caminho do seu workspace (por exemplo,
/Workspace/Users/<your-email>/connectors). O Databricks clona e armazena o código-fonte do conector aqui. -
Clique em Criar pipeline .
-
No editor de pipeline, abra
ingest.pye atualize o campo de objetos para incluir as tabelas que você deseja ingerir. Por exemplo:Pythonfrom databricks.labs.community_connector.pipeline import ingest
pipeline_spec = {
"connection_name": "my_stripe_connection", # Required: UC connection name
"objects": [
{"table": {"source_table": "charges"}},
{"table": {"source_table": "customers",
"destination_table": "stripe_customers"}},
],
}
ingest(spark, pipeline_spec) -
executar o pipeline manualmente ou programá-lo.
Opções de configuração do pipeline
Você pode configurar as seguintes opções em ingest.py:
Opção | Descrição |
|---|---|
| Obrigatório. O nome da conexão que armazena as credenciais de autenticação da origem. |
| Obrigatório. Uma lista de tabelas a serem ingeridas. Cada entrada tem o formato |
| O catálogo onde as tabelas ingeridas são gravadas. Por padrão, utiliza-se o catálogo definido durante a criação pipeline . |
| O esquema onde as tabelas ingeridas são gravadas. Por padrão, será utilizado o esquema definido durante a criação pipeline . |
| A estratégia de dimensões que mudam lentamente (SCD): |
| Substituir a chave primária default de uma tabela. Forneça uma lista com os nomes das colunas. |