Pular para o conteúdo principal

Referência do conector do Microsoft SharePoint

info

Visualização

O conector do Microsoft SharePoint está em versão beta.

Esta página contém material de referência para o conector do SharePoint Microsoft em Databricks LakeFlow Connect.

Formato de dados ingeridos

Os dados ingeridos chegam no formato a seguir. Um site no SharePoint é mapeado para um esquema no Databricks. Uma unidade no site do SharePoint é mapeada para uma tabela no esquema de destino.

campo

Tipo

Descrição

file_id

String

O identificador exclusivo do SharePoint do arquivo.

file_metadata

Struct

Contém metadados genéricos do arquivo:

  • name (string): O nome do arquivo, conforme ele aparece no SharePoint.
  • size_in_bytes (bigint): O tamanho do arquivo.
  • created_timestamp (timestamp): A data e hora em que o arquivo foi criado no SharePoint.
  • last_modified_timestamp (timestamp): A data e hora em que o arquivo foi modificado pela última vez no SharePoint.

source_metadata

Struct

Contém metadados específicos do SharePoint para o arquivo:

  • site_id (string): O identificador do site do SharePoint.
  • drive_id (string): O identificador da unidade do SharePoint.
  • file_folder_path (string): O caminho do arquivo no SharePoint (por exemplo, /drives/d1/root:/folder1).
  • quick_xor_hash (string): Um hash personalizado fornecido por Microsoft que pode ser usado para validar a precisão do conteúdo de seus downloads. Esse valor pode ser NULL (por exemplo, se o formato não suportar hash). Consulte Trechos de código: Algoritmo QuickXorHash na documentação da Microsoft. mime_type (strings): O tipo (formato) do arquivo MIME.
  • web_url (string): Um link para o arquivo no SharePoint.

content

Struct

Contém o conteúdo do arquivo. A Databricks não recomenda o acesso direto a essa estrutura. Em vez disso, acesse-a usando os UDFs no caso de uso do Downstream RAG.

sequence_id

Long

Um sequenciamento key para ordenar diferentes versões do mesmo arquivo.

is_deleted

Boolean

Ignore essa coluna. O valor sempre será false. Se o senhor precisar identificar colunas excluídas, a Databricks recomenda ativar o SCD tipo 2 e usar o site \_\_END_AT column.