Microsoft SharePoint コネクタリファレンス

このページには、 Databricks LakeflowコネクトのMicrosoft SharePoint コネクタのリファレンスが含まれています。

`sharepoint_options`パラメーター

パイプライン定義内の各テーブルのconnector_options.sharepoint_optionsブロック内で、これらのオプションを設定します。

パラメーター	Type	必須	説明
`entity_type`	String	はい	取り込むエンティティタイプ。サポートされている値： `FILE` (ファイルコンテンツとメタデータを取り込む)、`FILE_METADATA` (ファイルコンテンツをダウンロードせずにメタデータのみを取り込む)。
`url`	String	はい	取り込むSharePointサイト、サブサイト、ドライブ、またはフォルダーのURL。例： `https://<tenant>.sharepoint.com/sites/<site>` `https://<tenant>.sharepoint.com/sites/<site>/<folder>` URL 形式の詳細については、「SharePoint からファイルを読み取る」を参照してください。
`file_ingestion_options`	オブジェクト	はい	ファイル形式および取り込み動作を制御します。`file_ingestion_options`パラメーターを参照してください。

パラメーター

Type

必須

説明

entity_type

String

はい

取り込むエンティティタイプ。サポートされている値： FILE (ファイルコンテンツとメタデータを取り込む)、FILE_METADATA (ファイルコンテンツをダウンロードせずにメタデータのみを取り込む)。

url

String

はい

取り込むSharePointサイト、サブサイト、ドライブ、またはフォルダーのURL。例：

https://<tenant>.sharepoint.com/sites/<site>
https://<tenant>.sharepoint.com/sites/<site>/<folder>

URL 形式の詳細については、「SharePoint からファイルを読み取る」を参照してください。

file_ingestion_options

オブジェクト

はい

ファイル形式および取り込み動作を制御します。file_ingestion_optionsパラメーターを参照してください。

パラメーター	Type	必須	説明
`entity_type`	String	はい	取り込むエンティティタイプ。サポートされている値： `FILE` (ファイルコンテンツとメタデータを取り込む)、`FILE_METADATA` (ファイルコンテンツをダウンロードせずにメタデータのみを取り込む)。
`url`	String	はい	取り込むSharePointサイト、サブサイト、ドライブ、またはフォルダーのURL。例： `https://<tenant>.sharepoint.com/sites/<site>` `https://<tenant>.sharepoint.com/sites/<site>/<folder>` URL 形式の詳細については、「SharePoint からファイルを読み取る」を参照してください。
`file_ingestion_options`	オブジェクト	はい	ファイル形式および取り込み動作を制御します。`file_ingestion_options`パラメーターを参照してください。

パラメーター

Type

必須

説明

entity_type

String

はい

url

String

はい

取り込むSharePointサイト、サブサイト、ドライブ、またはフォルダーのURL。例：

https://<tenant>.sharepoint.com/sites/<site>
https://<tenant>.sharepoint.com/sites/<site>/<folder>

URL 形式の詳細については、「SharePoint からファイルを読み取る」を参照してください。

file_ingestion_options

オブジェクト

はい

ファイル形式および取り込み動作を制御します。file_ingestion_optionsパラメーターを参照してください。

`file_ingestion_options`パラメーター

「sharepoint_options.file_ingestion_options」の中にこれらのオプションを設定します。

パラメーター	Type	必須	説明
`format`	String	はい	取り込み対象のファイル形式サポートされている値：`BINARYFILE`、`CSV`、`JSON`、`XML`、`EXCEL`、`PARQUET`、`AVRO`、`ORC`。`BINARYFILE` を非構造化取り込み（PDF、Office ファイル、画像）に使用する。構造化されたフォーマットを使用して、ファイルの内容を行として解析します。
`file_filters`	オブジェクトの配列	No	どのファイルを取り込むかを制限するフィルター各フィルターオブジェクトは、以下のいずれかのキーを含めることができます。 `path_filter` (文字列): ファイルパスと照合されるglobパターンです。Spark パス glob フィルターに基づいています。 `modified_before` （string）：`YYYY-MM-DDTHH:mm:ss`形式のタイムスタンプです。この時間より前に変更されたファイルのみが取り込まれます。 `modified_after` （string）：`YYYY-MM-DDTHH:mm:ss`形式のタイムスタンプです。この時刻以降に変更されたファイルのみが取り込まれます。
`schema_evolution_mode`	String	No	受信ファイル内の新しい列の処理方法を制御します。モードはAuto Loaderのスキーマ進化モードに一致します。サポートされている値: `ADD_NEW_COLUMNS_WITH_TYPE_WIDENING` (デフォルト)、 `ADD_NEW_COLUMNS`、 `RESCUE`、 `FAIL_ON_NEW_COLUMNS`、 `NONE`。
`schema_hints`	String	No	推測された列タイプを上書きします。`column_name TYPE`のペアをカンマ区切りのリストとして指定します。例: `order_id INT, amount DOUBLE`。スキーマヒントを使用してスキーマ推論をオーバーライドするを参照してください。
`format_options`	オブジェクト	No	形式固有の解析オプションキーは標準のAuto Loader形式オプション名です。「形式オプション」を参照してください。

パラメーター	Type	必須	説明
`format`	String	はい	取り込み対象のファイル形式サポートされている値：`BINARYFILE`、`CSV`、`JSON`、`XML`、`EXCEL`、`PARQUET`、`AVRO`、`ORC`。`BINARYFILE` を非構造化取り込み（PDF、Office ファイル、画像）に使用する。構造化されたフォーマットを使用して、ファイルの内容を行として解析します。
`file_filters`	オブジェクトの配列	No	どのファイルを取り込むかを制限するフィルター各フィルターオブジェクトは、以下のいずれかのキーを含めることができます。 `path_filter` (文字列): ファイルパスと照合されるglobパターンです。Spark パス glob フィルターに基づいています。 `modified_before` （string）：`YYYY-MM-DDTHH:mm:ss`形式のタイムスタンプです。この時間より前に変更されたファイルのみが取り込まれます。 `modified_after` （string）：`YYYY-MM-DDTHH:mm:ss`形式のタイムスタンプです。この時刻以降に変更されたファイルのみが取り込まれます。
`schema_evolution_mode`	String	No	受信ファイル内の新しい列の処理方法を制御します。モードはAuto Loaderのスキーマ進化モードに一致します。サポートされている値: `ADD_NEW_COLUMNS_WITH_TYPE_WIDENING` (デフォルト)、 `ADD_NEW_COLUMNS`、 `RESCUE`、 `FAIL_ON_NEW_COLUMNS`、 `NONE`。
`schema_hints`	String	No	推測された列タイプを上書きします。`column_name TYPE`のペアをカンマ区切りのリストとして指定します。例: `order_id INT, amount DOUBLE`。スキーマヒントを使用してスキーマ推論をオーバーライドするを参照してください。
`format_options`	オブジェクト	No	形式固有の解析オプションキーは標準のAuto Loader形式オプション名です。「形式オプション」を参照してください。

`table_configuration`パラメーター

パイプライン定義内の各テーブルのtable_configurationブロック内で、これらのオプションを設定します。table_configuration は connector_options の兄弟であり、その中に入れ子になっていません。

パラメーター	Type	必須	説明
`storage_mode`	String	No	宛先テーブルのストレージモード。サポートされている値： `SCD_TYPE_1` （`BINARYFILE`のデフォルト）：ファイルが変更または削除された場合にレコードを上書きします。 `APPEND_ONLY` （構造化形式のデフォルト）：新規または更新されたファイルから新しい行を追加します。これらはデフォルトであり、サポートされている唯一の値であるため、`storage_mode` を明示的に設定することはオプションです。`scd_type`フィールドはエラーをスローしますので、使用しないでください。

パラメーター

Type

必須

説明

storage_mode

String

宛先テーブルのストレージモード。サポートされている値：

SCD_TYPE_1 （BINARYFILEのデフォルト）：ファイルが変更または削除された場合にレコードを上書きします。
APPEND_ONLY （構造化形式のデフォルト）：新規または更新されたファイルから新しい行を追加します。

これらはデフォルトであり、サポートされている唯一の値であるため、storage_mode を明示的に設定することはオプションです。scd_typeフィールドはエラーをスローしますので、使用しないでください。

パラメーター	Type	必須	説明
`storage_mode`	String	No	宛先テーブルのストレージモード。サポートされている値： `SCD_TYPE_1` （`BINARYFILE`のデフォルト）：ファイルが変更または削除された場合にレコードを上書きします。 `APPEND_ONLY` （構造化形式のデフォルト）：新規または更新されたファイルから新しい行を追加します。これらはデフォルトであり、サポートされている唯一の値であるため、`storage_mode` を明示的に設定することはオプションです。`scd_type`フィールドはエラーをスローしますので、使用しないでください。

パラメーター

Type

必須

説明

storage_mode

String

宛先テーブルのストレージモード。サポートされている値：

SCD_TYPE_1 （BINARYFILEのデフォルト）：ファイルが変更または削除された場合にレコードを上書きします。
APPEND_ONLY （構造化形式のデフォルト）：新規または更新されたファイルから新しい行を追加します。

形式オプション

「format_options」ブロックは、ファイル形式別に以下に整理された標準のAuto Loader形式オプションキーを受け入れます。任意のオプションの完全な詳細については、「Auto Loader」を参照してください。

JSON

キー	説明
`allowBackslashEscapingAnyCharacter`	任意の文字のバックスラッシュエスケープを許可します。
`allowComments`	JSONコンテンツ内でJavaスタイルおよびC++スタイルのコメントを許可します。
`allowNonNumericNumbers`	`NaN` と `Infinity` を有効な浮動小数点数値として許可します。
`allowNumericLeadingZeros`	整数値で先頭のゼロの使用を許可します。
`allowSingleQuotes`	二重引用符に加えて、一重引用符を文字列の区切り文字として使用できます。
`allowUnquotedControlChars`	JSON文字列での引用符なしの制御文字を許可します。
`allowUnquotedFieldNames`	引用符で囲まれていないフィールド名を許可します。
`badRecordsPath`	パイプラインを停止させずに、破損または解析不能なレコードを保存するパス。
`charset` / `encoding`	ファイルの文字エンコーディング（例：`UTF-8`、`ISO-8859-1`）。
`dateFormat`	日付文字列を解析するためのパターン（例：`yyyy-MM-dd`）。
`dropFieldIfAllNull`	スキーマ推論中に、すべての値がNULLまたは空の列を無視します。
`inferTimestamp`	タイムスタンプパターンに一致する文字列について、`TimestampType` を推測します。
`lineSep`	行区切り文字または文字列。
`locale`	日付と数値の解析用ロケール（例えば、`en-US`）
`mode`	不正な形式のレコードの動作：`PERMISSIVE`（デフォルト）、`DROPMALFORMED`、または`FAILFAST`。
`multiLine`	複数行にまたがるレコードを解析します。
`prefersDecimal`	可能な場合は、`FloatType`または`DoubleType`ではなく、`DecimalType`を推論します。
`primitivesAsString`	すべてのプリミティブ値を`StringType`として推論します。
`readerCaseSensitive`	スキーマに対する大文字と小文字を区別する列名の照合を有効にします。
`timestampFormat`	タイムスタンプ文字列を解析するための形式（例：`yyyy-MM-dd'T'HH:mm:ss`）。
`timeZone`	タイムスタンプの解析に使うタイムゾーン（例えば、`UTC`、`America/New_York`）。

キー	説明
`allowBackslashEscapingAnyCharacter`	任意の文字のバックスラッシュエスケープを許可します。
`allowComments`	JSONコンテンツ内でJavaスタイルおよびC++スタイルのコメントを許可します。
`allowNonNumericNumbers`	`NaN` と `Infinity` を有効な浮動小数点数値として許可します。
`allowNumericLeadingZeros`	整数値で先頭のゼロの使用を許可します。
`allowSingleQuotes`	二重引用符に加えて、一重引用符を文字列の区切り文字として使用できます。
`allowUnquotedControlChars`	JSON文字列での引用符なしの制御文字を許可します。
`allowUnquotedFieldNames`	引用符で囲まれていないフィールド名を許可します。
`badRecordsPath`	パイプラインを停止させずに、破損または解析不能なレコードを保存するパス。
`charset` / `encoding`	ファイルの文字エンコーディング（例：`UTF-8`、`ISO-8859-1`）。
`dateFormat`	日付文字列を解析するためのパターン（例：`yyyy-MM-dd`）。
`dropFieldIfAllNull`	スキーマ推論中に、すべての値がNULLまたは空の列を無視します。
`inferTimestamp`	タイムスタンプパターンに一致する文字列について、`TimestampType` を推測します。
`lineSep`	行区切り文字または文字列。
`locale`	日付と数値の解析用ロケール（例えば、`en-US`）
`mode`	不正な形式のレコードの動作：`PERMISSIVE`（デフォルト）、`DROPMALFORMED`、または`FAILFAST`。
`multiLine`	複数行にまたがるレコードを解析します。
`prefersDecimal`	可能な場合は、`FloatType`または`DoubleType`ではなく、`DecimalType`を推論します。
`primitivesAsString`	すべてのプリミティブ値を`StringType`として推論します。
`readerCaseSensitive`	スキーマに対する大文字と小文字を区別する列名の照合を有効にします。
`timestampFormat`	タイムスタンプ文字列を解析するための形式（例：`yyyy-MM-dd'T'HH:mm:ss`）。
`timeZone`	タイムスタンプの解析に使うタイムゾーン（例えば、`UTC`、`America/New_York`）。

CSV

上記のすべてのJSONオプションをサポートしており、さらに、以下のCSV固有のオプションも利用可能です。

キー	説明
`charToEscapeQuoteEscaping`	引用符付きフィールド内で、引用符文字の前に使用されるエスケープ文字。
`comment`	行コメントを表す文字です。この文字で始まる行はスキップされます。
`delimiter` / `sep`	列の区切り文字（デフォルト：`,`）。
`emptyValue`	空の値の書き込み時に使用する文字列。
`enforceSchema`	ヘッダー名を無視して、宣言されたスキーマをCSVデータに適用します。
`escape`	エスケープ文字（デフォルト：「`\`」）。
`header`	最初の行に列名が含まれるかどうか（デフォルト: `false`）。
`ignoreLeadingWhiteSpace`	値の先頭の空白を除去します。
`ignoreTrailingWhiteSpace`	値から末尾の空白をトリムします。
`maxCharsPerColumn`	列値あたりの最大許容文字数。
`maxColumns`	レコード内で許可されている列の最大数。
`mergeSchema`	複数のCSVファイルにわたってスキーマをマージします。
`nanValue`	`NaN`の文字列表現。
`negativeInf`	負の無限大の文字列表現。
`nullValue`	null値の文字列表現。
`parserCaseSensitive`	ヘッダー名とスキーマ・フィールド名の大/小文字を区別した照合を有効にします。
`positiveInf`	正の無限大の文字列表現。
`preferDate`	日付形式の文字列を `TimestampType` ではなく `DateType` として推測します。
`quote`	区切り文字を含むフィールド値を囲むために使用されるクォート文字 (デフォルト: `"`)。
`skipRows`	ファイルの冒頭で、ヘッダーやデータの前にスキップする行数
`unescapedQuoteHandling`	引用符付きフィールド内のエスケープされていない引用符文字の処理方法。

キー	説明
`charToEscapeQuoteEscaping`	引用符付きフィールド内で、引用符文字の前に使用されるエスケープ文字。
`comment`	行コメントを表す文字です。この文字で始まる行はスキップされます。
`delimiter` / `sep`	列の区切り文字（デフォルト：`,`）。
`emptyValue`	空の値の書き込み時に使用する文字列。
`enforceSchema`	ヘッダー名を無視して、宣言されたスキーマをCSVデータに適用します。
`escape`	エスケープ文字（デフォルト：「`\`」）。
`header`	最初の行に列名が含まれるかどうか（デフォルト: `false`）。
`ignoreLeadingWhiteSpace`	値の先頭の空白を除去します。
`ignoreTrailingWhiteSpace`	値から末尾の空白をトリムします。
`maxCharsPerColumn`	列値あたりの最大許容文字数。
`maxColumns`	レコード内で許可されている列の最大数。
`mergeSchema`	複数のCSVファイルにわたってスキーマをマージします。
`nanValue`	`NaN`の文字列表現。
`negativeInf`	負の無限大の文字列表現。
`nullValue`	null値の文字列表現。
`parserCaseSensitive`	ヘッダー名とスキーマ・フィールド名の大/小文字を区別した照合を有効にします。
`positiveInf`	正の無限大の文字列表現。
`preferDate`	日付形式の文字列を `TimestampType` ではなく `DateType` として推測します。
`quote`	区切り文字を含むフィールド値を囲むために使用されるクォート文字 (デフォルト: `"`)。
`skipRows`	ファイルの冒頭で、ヘッダーやデータの前にスキップする行数
`unescapedQuoteHandling`	引用符付きフィールド内のエスケープされていない引用符文字の処理方法。

XML

キー	説明
`arrayElementName`	書き込み時に各配列項目をラップする XML 要素の名前
`attributePrefix`	XML属性名を要素名と区別するために追加されるプレフィックス（デフォルト：`_`）。
`compression`	読み取り用圧縮コーデック（例: `gzip`、`bzip2`）。
`declaration`	書き込み時に先頭に付加するXML宣言文字列。
`encoding`	XMLファイルの文字エンコーディング
`excludeAttribute`	XML 要素の属性を構文解析から除外します。
`ignoreSurroundingSpaces`	要素値の周囲の空白を無視します。
`ignoreNamespace`	解析中にXML名前空間プレフィックスを無視します。
`locale`	日付と数値を解析するためのロケール。
`mode`	不正な形式のレコードの処理動作：`PERMISSIVE`、`DROPMALFORMED`、または`FAILFAST`のいずれか。
`nullValue`	null値の文字列表現。
`rootTag`	ルート要素タグ名。
`rowTag`	各行を識別するXML要素タグ（必須）です。
`rowValidationXSDPath`	各行要素の検証用のXSDスキーマファイルへのパス。
`samplingRatio`	スキーマ推論のためにサンプリングされた行の割合（デフォルト：`1.0`）。
`timestampFormat`	タイムスタンプ文字列を解析するための形式。
`timestampNTZFormat`	タイムゾーンなしのタイムスタンプ文字列を解析するためのパターン。
`timeZone`	タイムスタンプを解析するためのタイムゾーン。
`validateName`	XML 要素名が XML 仕様に準拠していることを検証します。
`valueTag`	属性を持つ要素内のテキスト値に使用されるタグ名（デフォルト：`_VALUE`）。

キー	説明
`arrayElementName`	書き込み時に各配列項目をラップする XML 要素の名前
`attributePrefix`	XML属性名を要素名と区別するために追加されるプレフィックス（デフォルト：`_`）。
`compression`	読み取り用圧縮コーデック（例: `gzip`、`bzip2`）。
`declaration`	書き込み時に先頭に付加するXML宣言文字列。
`encoding`	XMLファイルの文字エンコーディング
`excludeAttribute`	XML 要素の属性を構文解析から除外します。
`ignoreSurroundingSpaces`	要素値の周囲の空白を無視します。
`ignoreNamespace`	解析中にXML名前空間プレフィックスを無視します。
`locale`	日付と数値を解析するためのロケール。
`mode`	不正な形式のレコードの処理動作：`PERMISSIVE`、`DROPMALFORMED`、または`FAILFAST`のいずれか。
`nullValue`	null値の文字列表現。
`rootTag`	ルート要素タグ名。
`rowTag`	各行を識別するXML要素タグ（必須）です。
`rowValidationXSDPath`	各行要素の検証用のXSDスキーマファイルへのパス。
`samplingRatio`	スキーマ推論のためにサンプリングされた行の割合（デフォルト：`1.0`）。
`timestampFormat`	タイムスタンプ文字列を解析するための形式。
`timestampNTZFormat`	タイムゾーンなしのタイムスタンプ文字列を解析するためのパターン。
`timeZone`	タイムスタンプを解析するためのタイムゾーン。
`validateName`	XML 要素名が XML 仕様に準拠していることを検証します。
`valueTag`	属性を持つ要素内のテキスト値に使用されるタグ名（デフォルト：`_VALUE`）。

Parquet

キー	説明
`datetimeRebaseMode`	ユリウス暦形式で記述された日付とタイムスタンプの取り扱い：`EXCEPTION`、`CORRECTED`、または`LEGACY`。
`int96RebaseMode`	ユリウス暦形式で記述されたINT96タイムスタンプの処理：`EXCEPTION`、`CORRECTED`、または`LEGACY`。
`mergeSchema`	複数のParquetファイルにまたがってスキーマをマージします。

キー	説明
`datetimeRebaseMode`	ユリウス暦形式で記述された日付とタイムスタンプの取り扱い：`EXCEPTION`、`CORRECTED`、または`LEGACY`。
`int96RebaseMode`	ユリウス暦形式で記述されたINT96タイムスタンプの処理：`EXCEPTION`、`CORRECTED`、または`LEGACY`。
`mergeSchema`	複数のParquetファイルにまたがってスキーマをマージします。

Avro

キー	説明
`avroSchema`	JSON 文字列形式の Avro スキーマ読み取り時に特定のスキーマを強制適用するために使用します。
`datetimeRebaseMode`	ユリウス暦形式で記述された日付とタイムスタンプの取り扱い：`EXCEPTION`、`CORRECTED`、または`LEGACY`。
`mergeSchema`	複数のAvroファイルにわたってスキーマをマージします。

キー	説明
`avroSchema`	JSON 文字列形式の Avro スキーマ読み取り時に特定のスキーマを強制適用するために使用します。
`datetimeRebaseMode`	ユリウス暦形式で記述された日付とタイムスタンプの取り扱い：`EXCEPTION`、`CORRECTED`、または`LEGACY`。
`mergeSchema`	複数のAvroファイルにわたってスキーマをマージします。

取り込まれたデータ形式

宛先テーブルのスキーマは、設定するentity_typeとformatによって異なります。

BINARYFILE エンティティタイプ (FILE)

entity_type が FILE で、format が BINARYFILE の場合、取り込まれた各ファイルは以下の列を持つ1行になります。

フィールド	Type	説明
`file_id`	`String`	ファイルの一意の SharePoint 識別子。
`file_metadata`	`Struct`	汎用ファイルメタデータが含まれます。 `name` (`string`): SharePoint に表示されるファイルの名前。 `size_in_bytes` (`bigint`): ファイルのサイズ。 `created_timestamp` (`timestamp`): SharePoint でファイルが作成されたタイムスタンプ。 `last_modified_timestamp` (`timestamp`): SharePoint でファイルが最後に変更されたタイムスタンプ。 `created_by_email` （`string`）：ファイルを作成したユーザーのEメールアドレス。利用できない場合、ヌルとなる可能性があります。 `last_modified_by_email` （`string`）：ファイルを最後に変更したユーザーのEメールアドレス。利用できない場合、ヌルとなる可能性があります。
`_file_metadata`	`Struct`	ファイルの SharePoint 固有のメタデータが含まれます。 `site_id` (`string`): SharePoint サイト識別子。 `drive_id` (`string`): SharePoint ドライブ識別子。 `file_folder_path` (`string`): SharePoint 内のファイルのファイルパス ( `/drives/d1/root:/folder1`など)。 `quick_xor_hash` (`string`)：Microsoft が提供するカスタムハッシュで、ダウンロードしたコンテンツが正確であることを検証するために使用できます。この値は`NULL`にすることができます（例：形式がハッシュをサポートしていない場合）。Microsoft のドキュメントにあるコードスニペット：QuickXorHash アルゴリズムを参照してください。 `mime_type` （`string`）：ファイルのMIMEタイプ（形式）です。 `web_url` (`string`): SharePoint 内のファイルへのリンク。
`content`	`Struct`	ファイルの内容が格納されます。Databricks では、この構造体に直接アクセスすることはお勧めしません。代わりに、ダウンストリームRAGの使用例のUDFを使用してアクセスします。
`_metadata`	`Struct`	Databricksは、取り込み中に標準ファイルメタデータを追加します。パスや変更時間などのソースファイル情報を含みます。

フィールド	Type	説明
`file_id`	`String`	ファイルの一意の SharePoint 識別子。
`file_metadata`	`Struct`	汎用ファイルメタデータが含まれます。 `name` (`string`): SharePoint に表示されるファイルの名前。 `size_in_bytes` (`bigint`): ファイルのサイズ。 `created_timestamp` (`timestamp`): SharePoint でファイルが作成されたタイムスタンプ。 `last_modified_timestamp` (`timestamp`): SharePoint でファイルが最後に変更されたタイムスタンプ。 `created_by_email` （`string`）：ファイルを作成したユーザーのEメールアドレス。利用できない場合、ヌルとなる可能性があります。 `last_modified_by_email` （`string`）：ファイルを最後に変更したユーザーのEメールアドレス。利用できない場合、ヌルとなる可能性があります。
`_file_metadata`	`Struct`	ファイルの SharePoint 固有のメタデータが含まれます。 `site_id` (`string`): SharePoint サイト識別子。 `drive_id` (`string`): SharePoint ドライブ識別子。 `file_folder_path` (`string`): SharePoint 内のファイルのファイルパス ( `/drives/d1/root:/folder1`など)。 `quick_xor_hash` (`string`)：Microsoft が提供するカスタムハッシュで、ダウンロードしたコンテンツが正確であることを検証するために使用できます。この値は`NULL`にすることができます（例：形式がハッシュをサポートしていない場合）。Microsoft のドキュメントにあるコードスニペット：QuickXorHash アルゴリズムを参照してください。 `mime_type` （`string`）：ファイルのMIMEタイプ（形式）です。 `web_url` (`string`): SharePoint 内のファイルへのリンク。
`content`	`Struct`	ファイルの内容が格納されます。Databricks では、この構造体に直接アクセスすることはお勧めしません。代わりに、ダウンストリームRAGの使用例のUDFを使用してアクセスします。
`_metadata`	`Struct`	Databricksは、取り込み中に標準ファイルメタデータを追加します。パスや変更時間などのソースファイル情報を含みます。

構造化エンティティタイプ (構造化形式のファイル)

entity_type が FILE で、format が構造化形式（CSV、JSON、XML、EXCEL、PARQUET、AVRO、または ORC）の場合、宛先テーブルのスキーマはソースファイルのスキーマと一致します。列はファイルの内容から推測され、schema_evolution_mode および schema_hints の設定に従います。

FILE_METADATA エンティティタイプ

entity_type が FILE_METADATA の場合、ファイルコンテンツはダウンロードされません。宛先テーブルには、上記で説明した file_metadata と _file_metadata の構造体からのメタデータ列と、さらに file_id のみが含まれます。

sharepoint_optionsパラメーター​

file_ingestion_optionsパラメーター​

table_configurationパラメーター​

形式オプション​

JSON​

CSV​

XML​

Parquet​

Avro​

取り込まれたデータ形式​

BINARYFILE エンティティタイプ (FILE)​

構造化エンティティタイプ (構造化形式のファイル)​

FILE_METADATA エンティティタイプ​

`sharepoint_options`パラメーター

`file_ingestion_options`パラメーター

`table_configuration`パラメーター

形式オプション

JSON

CSV

XML

Parquet

Avro

取り込まれたデータ形式

BINARYFILE エンティティタイプ (FILE)

構造化エンティティタイプ (構造化形式のファイル)

FILE_METADATA エンティティタイプ