メインコンテンツまでスキップ

Microsoft SharePoint コネクタ リファレンス

備考

プレビュー

Microsoft SharePoint コネクタは ベータ版です。

このページには、 Databricks LakeflowコネクトのMicrosoft SharePoint コネクタの参考資料が含まれています。

取り込まれたデータ形式

取り込まれたデータは、次の形式で配置されます。SharePoint のサイトは、Databricks のスキーマにマップされます。SharePoint サイト内のドライブは、宛先スキーマのテーブルにマップされます。

フィールド

Type

説明

file_id

String

ファイルの一意の SharePoint 識別子。

file_metadata

Struct

汎用ファイルメタデータが含まれます。

  • name (string): SharePoint に表示されるファイルの名前。
  • size_in_bytes (bigint): ファイルのサイズ。
  • created_timestamp (timestamp): SharePoint でファイルが作成されたタイムスタンプ。
  • last_modified_timestamp (timestamp): SharePoint でファイルが最後に変更されたタイムスタンプ。

source_metadata

Struct

ファイルの SharePoint 固有のメタデータが含まれます。

  • site_id (string): SharePoint サイト識別子。
  • drive_id (string): SharePoint ドライブ識別子。
  • file_folder_path (string): SharePoint 内のファイルのファイル パス ( /drives/d1/root:/folder1など)。
  • quick_xor_hash (string): Microsoft が提供するカスタム ハッシュで、ダウンロードしたコンテンツが正確であることを検証できます。この値は NULL できます (たとえば、形式がハッシュをサポートしていない場合)。Microsoft ドキュメントの「 Code Snippets: QuickXorHash Algorithm 」を参照してください。mime_type (文字列): ファイルの MIME の種類 (形式)。
  • web_url (string): SharePoint 内のファイルへのリンク。

content

Struct

ファイルの内容が格納されます。Databricks では、この構造体に直接アクセスすることはお勧めしません。代わりに、 ダウンストリームRAGの使用例のUDFを使用してアクセスします。

sequence_id

Long

同じファイルの異なるバージョンを順序付けるためのシーケンス キー。

is_deleted

Boolean

この列は無視してください。値は常に falseになります。削除された列を特定する必要がある場合、Databricks では SCD タイプ 2 を有効にし、 \_\_END_AT columnを使用することをお勧めします。