Visão geral da configuração de ingestão do SharePoint
Saiba mais sobre os métodos de autenticação compatíveis para a ingestão de dados do SharePoint no Databricks.
Beta
O conector do SharePoint está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.
Esta página aborda o gerenciamento do conector do SharePoint para ingestão de arquivos não estruturados (PDFs, DOCX e outros) para uso em aplicativos como o RAG.
Para criar um pipeline personalizado com o conector do SharePoint, que oferece controle total sobre a análise, transformação e ingestão de arquivos estruturados (por exemplo, CSV e Excel) e não estruturados em tabelas Delta , consulte Ingerir arquivos do SharePoint.
Escolha seu conector do SharePoint
LakeFlow Connect oferece dois conectores complementares para SharePoint. Ambos acessam dados no SharePoint, mas atendem a objetivos distintos.
Consideração | gerenciamento do conector do SharePoint | Conector padrão do SharePoint |
|---|---|---|
Gestão e personalização | Um conector totalmente gerenciado. Conectores simples e de baixa manutenção para aplicações empresariais que ingerem dados em tabelas Delta e os mantêm sincronizados com a fonte. Consulte a seção de gerenciamento de conectores no LakeFlow Connect. | Crie um pipeline de ingestão personalizado com SQL, PySpark ou LakeFlow . Pipeline declarativo Spark usando APIs de lotes e transmissões como Oferece a flexibilidade para realizar transformações complexas durante a ingestão, ao mesmo tempo que lhe confere maior responsabilidade pela gestão e manutenção do seu pipeline. |
Formato de saída | Tabela de conteúdo binário uniforme. Ingere cada arquivo em formato binário (um arquivo por linha), juntamente com os metadados do arquivo em colunas adicionais. | Tabelas Delta estruturadas. Importa arquivos estruturados (como CSV e Excel) como tabelas Delta. Também pode ser usado para ingestão. Arquivos não estruturados em formato binário. |
Granularidade, filtragem e seleção | Não é possível selecionar subpastas ou arquivos em nível atual. Sem filtragem baseada em padrões. Importa todos os arquivos da biblioteca de documentos do SharePoint especificada. | Granular e personalizado. Seleção baseada em URL para importar dados da biblioteca de documentos, subpastas ou arquivos individuais. Também suporta filtragem baseada em padrões usando a opção |
Quais métodos de autenticação são suportados?
O conector do SharePoint suporta os seguintes métodos de autenticação:
Qual método de autenticação devo escolher?
Na maioria dos cenários, a Databricks recomenda o OAuth de máquina para máquina (M2M). O M2M define as permissões do conector para um site específico. No entanto, se você quiser restringir as permissões ao que o usuário que está se autenticando pode acessar, escolha o OAuth de usuário para máquina (U2M). Ambos os métodos oferecem refresh automática de tokens e maior segurança.
A autenticação manual refresh de tokens é considerada um método legado e não é recomendada.
U2M comparado a M2M
A tabela a seguir compara U2M e M2M para autenticação no SharePoint:
Recurso | OAuth U2M | OAuth M2M |
|---|---|---|
Tipo de autenticação | Acesso delegado (baseado no usuário) | Acesso somente pelo aplicativo (entidade de serviço) |
Interação do usuário necessária | Sim - O usuário precisa fazer login. | Não - Totalmente automatizado |
Ideal para | Cenários de acesso específicos do usuário | Linha de produção automatizada |
refreshde tokens | Gerenciado automaticamente pelo Databricks | Gerenciado automaticamente pelo Databricks |
Permissões do SharePoint | Permissões delegadas | Permissões do aplicativo |
Escopo de acesso | Limitado às permissões do usuário | Definido pelo registro do aplicativo |