Pular para o conteúdo principal

Visão geral da configuração de ingestão do SharePoint

Saiba mais sobre os métodos de autenticação compatíveis para a ingestão de dados do SharePoint no Databricks.

info

Beta

O conector do SharePoint está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.

dica

Esta página aborda o gerenciamento do conector do SharePoint para ingestão de arquivos não estruturados (PDFs, DOCX e outros) para uso em aplicativos como o RAG.

Para criar um pipeline personalizado com o conector do SharePoint, que oferece controle total sobre a análise, transformação e ingestão de arquivos estruturados (por exemplo, CSV e Excel) e não estruturados em tabelas Delta , consulte Ingerir arquivos do SharePoint.

Escolha seu conector do SharePoint

LakeFlow Connect oferece dois conectores complementares para SharePoint. Ambos acessam dados no SharePoint, mas atendem a objetivos distintos.

Consideração

gerenciamento do conector do SharePoint

Conector padrão do SharePoint

Gestão e personalização

Um conector totalmente gerenciado.

Conectores simples e de baixa manutenção para aplicações empresariais que ingerem dados em tabelas Delta e os mantêm sincronizados com a fonte. Consulte a seção de gerenciamento de conectores no LakeFlow Connect.

Crie um pipeline de ingestão personalizado com SQL, PySpark ou LakeFlow . Pipeline declarativo Spark usando APIs de lotes e transmissões como read_files, spark.read, COPY INTO e Auto Loader.

Oferece a flexibilidade para realizar transformações complexas durante a ingestão, ao mesmo tempo que lhe confere maior responsabilidade pela gestão e manutenção do seu pipeline.

Formato de saída

Tabela de conteúdo binário uniforme. Ingere cada arquivo em formato binário (um arquivo por linha), juntamente com os metadados do arquivo em colunas adicionais.

Tabelas Delta estruturadas. Importa arquivos estruturados (como CSV e Excel) como tabelas Delta. Também pode ser usado para ingestão. Arquivos não estruturados em formato binário.

Granularidade, filtragem e seleção

Não é possível selecionar subpastas ou arquivos em nível atual. Sem filtragem baseada em padrões.

Importa todos os arquivos da biblioteca de documentos do SharePoint especificada.

Granular e personalizado.

Seleção baseada em URL para importar dados da biblioteca de documentos, subpastas ou arquivos individuais. Também suporta filtragem baseada em padrões usando a opção pathGlobFilter .

Quais métodos de autenticação são suportados?

O conector do SharePoint suporta os seguintes métodos de autenticação:

Qual método de autenticação devo escolher?

Na maioria dos cenários, a Databricks recomenda o OAuth de máquina para máquina (M2M). O M2M define as permissões do conector para um site específico. No entanto, se você quiser restringir as permissões ao que o usuário que está se autenticando pode acessar, escolha o OAuth de usuário para máquina (U2M). Ambos os métodos oferecem refresh automática de tokens e maior segurança.

A autenticação manual refresh de tokens é considerada um método legado e não é recomendada.

U2M comparado a M2M

A tabela a seguir compara U2M e M2M para autenticação no SharePoint:

Recurso

OAuth U2M

OAuth M2M

Tipo de autenticação

Acesso delegado (baseado no usuário)

Acesso somente pelo aplicativo (entidade de serviço)

Interação do usuário necessária

Sim - O usuário precisa fazer login.

Não - Totalmente automatizado

Ideal para

Cenários de acesso específicos do usuário

Linha de produção automatizada

refreshde tokens

Gerenciado automaticamente pelo Databricks

Gerenciado automaticamente pelo Databricks

Permissões do SharePoint

Permissões delegadas

Permissões do aplicativo

Escopo de acesso

Limitado às permissões do usuário

Definido pelo registro do aplicativo