Conectores de arquivo de origem gerenciados
O Databricks Lakeflow Connect fornece conectores totalmente gerenciados para ingerir arquivos não estruturados de serviços de armazenamento de arquivos corporativos. Cada conector gerencia a autenticação específica da origem, leituras incrementais e novas tentativas automatizadas.
Conectores suportados
-
- Google Drive (gerenciado)
- Ingerir arquivos do Google Drive no Lakehouse usando ingestão gerenciada de fonte de arquivo.
-
- Microsoft SharePoint (gerenciado)
- Ingerir arquivos de sites do Microsoft SharePoint usando ingestão gerenciada de fonte de arquivo.
Para conectores padrão usando Spark e APIs SQL, consulte Ingerir arquivos do Google Drive e Ingerir arquivos do SharePoint.
Componentes do conector
Um conector de origem de arquivo tem os seguintes componentes:
Componente | Descrição |
|---|---|
Conexão | Um objeto protegível do Unity Catalog que armazena detalhes de autenticação para o serviço de armazenamento de arquivos. |
Pipeline de ingestão | Um pipeline que copia arquivos da origem para as tabelas de destino. O pipeline de ingestão é executado em compute serverless. |
Tabelas de destino | As tabelas onde o pipeline de ingestão grava os dados. Estas são tabelas de transmissão, que são tabelas Delta com suporte extra para o processamento incremental de dados. |