メインコンテンツまでスキップ

Microsoft SharePoint コネクタ リファレンス

このページには、 Databricks LakeflowコネクトのMicrosoft SharePoint コネクタのリファレンスが含まれています。

sharepoint_optionsパラメーター

パイプライン定義内の各テーブルのconnector_options.sharepoint_optionsブロック内で、これらのオプションを設定します。

パラメーター

Type

必須

説明

entity_type

String

はい

取り込むエンティティタイプ。サポートされている値: FILE (ファイルコンテンツとメタデータを取り込む)、FILE_METADATA (ファイルコンテンツをダウンロードせずにメタデータのみを取り込む)。

url

String

はい

取り込むSharePointサイト、サブサイト、ドライブ、またはフォルダーのURL。例:

  • https://<tenant>.sharepoint.com/sites/<site>
  • https://<tenant>.sharepoint.com/sites/<site>/<folder>

URL 形式の詳細については、「SharePoint からファイルを読み取る」を参照してください。

file_ingestion_options

オブジェクト

はい

ファイル形式および取り込み動作を制御します。file_ingestion_optionsパラメーターを参照してください。

file_ingestion_optionsパラメーター

sharepoint_options.file_ingestion_options」の中にこれらのオプションを設定します。

パラメーター

Type

必須

説明

format

String

はい

取り込み対象のファイル形式サポートされている値:BINARYFILECSVJSONXMLEXCELPARQUETAVROORCBINARYFILE を非構造化取り込み(PDF、Office ファイル、画像)に使用する。構造化されたフォーマットを使用して、ファイルの内容を行として解析します。

file_filters

オブジェクトの配列

No

どのファイルを取り込むかを制限するフィルター各フィルターオブジェクトは、以下のいずれかのキーを含めることができます。

  • path_filter (文字列): ファイルパスと照合されるglobパターンです。Spark パス glob フィルターに基づいています。
  • modified_before (string):YYYY-MM-DDTHH:mm:ss形式のタイムスタンプです。この時間より前に変更されたファイルのみが取り込まれます。
  • modified_after (string):YYYY-MM-DDTHH:mm:ss形式のタイムスタンプです。この時刻以降に変更されたファイルのみが取り込まれます。

schema_evolution_mode

String

No

受信ファイル内の新しい列の処理方法を制御します。モードはAuto Loaderのスキーマ進化モードに一致します。サポートされている値: ADD_NEW_COLUMNS_WITH_TYPE_WIDENING (デフォルト)、 ADD_NEW_COLUMNSRESCUEFAIL_ON_NEW_COLUMNSNONE

schema_hints

String

No

推測された列タイプを上書きします。column_name TYPEのペアをカンマ区切りのリストとして指定します。例: order_id INT, amount DOUBLEスキーマヒントを使用してスキーマ推論をオーバーライドするを参照してください。

format_options

オブジェクト

No

形式固有の解析オプションキーは標準のAuto Loader形式オプション名です。「形式オプション」を参照してください。

table_configurationパラメーター

パイプライン定義内の各テーブルのtable_configurationブロック内で、これらのオプションを設定します。table_configurationconnector_options の兄弟であり、その中に入れ子になっていません。

パラメーター

Type

必須

説明

storage_mode

String

No

宛先テーブルのストレージモード。サポートされている値:

  • SCD_TYPE_1BINARYFILEのデフォルト):ファイルが変更または削除された場合にレコードを上書きします。
  • APPEND_ONLY (構造化形式のデフォルト):新規または更新されたファイルから新しい行を追加します。

これらはデフォルトであり、サポートされている唯一の値であるため、storage_mode を明示的に設定することはオプションです。scd_typeフィールドはエラーをスローしますので、使用しないでください。

形式オプション

format_options」ブロックは、ファイル形式別に以下に整理された標準のAuto Loader形式オプションキーを受け入れます。任意のオプションの完全な詳細については、「Auto Loader」を参照してください。

JSON

キー

説明

allowBackslashEscapingAnyCharacter

任意の文字のバックスラッシュエスケープを許可します。

allowComments

JSONコンテンツ内でJavaスタイルおよびC++スタイルのコメントを許可します。

allowNonNumericNumbers

NaNInfinity を有効な浮動小数点数値として許可します。

allowNumericLeadingZeros

整数値で先頭のゼロの使用を許可します。

allowSingleQuotes

二重引用符に加えて、一重引用符を文字列の区切り文字として使用できます。

allowUnquotedControlChars

JSON文字列での引用符なしの制御文字を許可します。

allowUnquotedFieldNames

引用符で囲まれていないフィールド名を許可します。

badRecordsPath

パイプラインを停止させずに、破損または解析不能なレコードを保存するパス。

charset / encoding

ファイルの文字エンコーディング(例:UTF-8ISO-8859-1)。

dateFormat

日付文字列を解析するためのパターン(例:yyyy-MM-dd)。

dropFieldIfAllNull

スキーマ推論中に、すべての値がNULLまたは空の列を無視します。

inferTimestamp

タイムスタンプパターンに一致する文字列について、TimestampType を推測します。

lineSep

行区切り文字または文字列。

locale

日付と数値の解析用ロケール(例えば、en-US

mode

不正な形式のレコードの動作:PERMISSIVE(デフォルト)、DROPMALFORMED、またはFAILFAST

multiLine

複数行にまたがるレコードを解析します。

prefersDecimal

可能な場合は、FloatTypeまたはDoubleTypeではなく、DecimalTypeを推論します。

primitivesAsString

すべてのプリミティブ値をStringTypeとして推論します。

readerCaseSensitive

スキーマに対する大文字と小文字を区別する列名の照合を有効にします。

timestampFormat

タイムスタンプ文字列を解析するための形式(例:yyyy-MM-dd'T'HH:mm:ss)。

timeZone

タイムスタンプの解析に使うタイムゾーン(例えば、UTCAmerica/New_York)。

CSV

上記のすべてのJSONオプションをサポートしており、さらに、以下のCSV固有のオプションも利用可能です。

キー

説明

charToEscapeQuoteEscaping

引用符付きフィールド内で、引用符文字の前に使用されるエスケープ文字。

comment

行コメントを表す文字です。この文字で始まる行はスキップされます。

delimiter / sep

列の区切り文字(デフォルト:,)。

emptyValue

空の値の書き込み時に使用する文字列。

enforceSchema

ヘッダー名を無視して、宣言されたスキーマをCSVデータに適用します。

escape

エスケープ文字(デフォルト:「\」)。

header

最初の行に列名が含まれるかどうか(デフォルト: false)。

ignoreLeadingWhiteSpace

値の先頭の空白を除去します。

ignoreTrailingWhiteSpace

値から末尾の空白をトリムします。

maxCharsPerColumn

列値あたりの最大許容文字数。

maxColumns

レコード内で許可されている列の最大数。

mergeSchema

複数のCSVファイルにわたってスキーマをマージします。

nanValue

NaNの文字列表現。

negativeInf

負の無限大の文字列表現。

nullValue

null値の文字列表現。

parserCaseSensitive

ヘッダー名とスキーマ・フィールド名の大/小文字を区別した照合を有効にします。

positiveInf

正の無限大の文字列表現。

preferDate

日付形式の文字列を TimestampType ではなく DateType として推測します。

quote

区切り文字を含むフィールド値を囲むために使用されるクォート文字 (デフォルト: ")。

skipRows

ファイルの冒頭で、ヘッダーやデータの前にスキップする行数

unescapedQuoteHandling

引用符付きフィールド内のエスケープされていない引用符文字の処理方法。

XML

キー

説明

arrayElementName

書き込み時に各配列項目をラップする XML 要素の名前

attributePrefix

XML属性名を要素名と区別するために追加されるプレフィックス(デフォルト:_)。

compression

読み取り用圧縮コーデック(例: gzipbzip2)。

declaration

書き込み時に先頭に付加するXML宣言文字列。

encoding

XMLファイルの文字エンコーディング

excludeAttribute

XML 要素の属性を構文解析から除外します。

ignoreSurroundingSpaces

要素値の周囲の空白を無視します。

ignoreNamespace

解析中にXML名前空間プレフィックスを無視します。

locale

日付と数値を解析するためのロケール。

mode

不正な形式のレコードの処理動作:PERMISSIVEDROPMALFORMED、またはFAILFASTのいずれか。

nullValue

null値の文字列表現。

rootTag

ルート要素タグ名。

rowTag

各行を識別するXML要素タグ(必須)です。

rowValidationXSDPath

各行要素の検証用のXSDスキーマファイルへのパス。

samplingRatio

スキーマ推論のためにサンプリングされた行の割合(デフォルト:1.0)。

timestampFormat

タイムスタンプ文字列を解析するための形式。

timestampNTZFormat

タイムゾーンなしのタイムスタンプ文字列を解析するためのパターン。

timeZone

タイムスタンプを解析するためのタイムゾーン。

validateName

XML 要素名が XML 仕様に準拠していることを検証します。

valueTag

属性を持つ要素内のテキスト値に使用されるタグ名(デフォルト:_VALUE)。

Parquet

キー

説明

datetimeRebaseMode

ユリウス暦形式で記述された日付とタイムスタンプの取り扱い:EXCEPTIONCORRECTED、またはLEGACY

int96RebaseMode

ユリウス暦形式で記述されたINT96タイムスタンプの処理:EXCEPTIONCORRECTED、またはLEGACY

mergeSchema

複数のParquetファイルにまたがってスキーマをマージします。

Avro

キー

説明

avroSchema

JSON 文字列形式の Avro スキーマ読み取り時に特定のスキーマを強制適用するために使用します。

datetimeRebaseMode

ユリウス暦形式で記述された日付とタイムスタンプの取り扱い:EXCEPTIONCORRECTED、またはLEGACY

mergeSchema

複数のAvroファイルにわたってスキーマをマージします。

取り込まれたデータ形式

宛先テーブルのスキーマは、設定するentity_typeformatによって異なります。

BINARYFILE エンティティタイプ (FILE)

entity_typeFILE で、formatBINARYFILE の場合、取り込まれた各ファイルは以下の列を持つ1行になります。

フィールド

Type

説明

file_id

String

ファイルの一意の SharePoint 識別子。

file_metadata

Struct

汎用ファイルメタデータが含まれます。

  • name (string): SharePoint に表示されるファイルの名前。
  • size_in_bytes (bigint): ファイルのサイズ。
  • created_timestamp (timestamp): SharePoint でファイルが作成されたタイムスタンプ。
  • last_modified_timestamp (timestamp): SharePoint でファイルが最後に変更されたタイムスタンプ。
  • created_by_emailstring):ファイルを作成したユーザーのEメールアドレス。利用できない場合、ヌルとなる可能性があります。
  • last_modified_by_emailstring):ファイルを最後に変更したユーザーのEメールアドレス。利用できない場合、ヌルとなる可能性があります。

_file_metadata

Struct

ファイルの SharePoint 固有のメタデータが含まれます。

  • site_id (string): SharePoint サイト識別子。
  • drive_id (string): SharePoint ドライブ識別子。
  • file_folder_path (string): SharePoint 内のファイルのファイル パス ( /drives/d1/root:/folder1など)。
  • quick_xor_hash (string):Microsoft が提供するカスタムハッシュで、ダウンロードしたコンテンツが正確であることを検証するために使用できます。この値はNULLにすることができます(例:形式がハッシュをサポートしていない場合)。Microsoft のドキュメントにある コードスニペット:QuickXorHash アルゴリズムを参照してください。
  • mime_typestring):ファイルのMIMEタイプ(形式)です。
  • web_url (string): SharePoint 内のファイルへのリンク。

content

Struct

ファイルの内容が格納されます。Databricks では、この構造体に直接アクセスすることはお勧めしません。代わりに、 ダウンストリームRAGの使用例のUDFを使用してアクセスします。

_metadata

Struct

Databricksは、取り込み中に標準ファイルメタデータを追加します。パスや変更時間などのソースファイル情報を含みます。

構造化エンティティタイプ (構造化形式のファイル)

entity_typeFILE で、format が構造化形式(CSVJSONXMLEXCELPARQUETAVRO、または ORC)の場合、宛先テーブルのスキーマはソースファイルのスキーマと一致します。列はファイルの内容から推測され、schema_evolution_mode および schema_hints の設定に従います。

FILE_METADATA エンティティタイプ

entity_typeFILE_METADATA の場合、ファイルコンテンツはダウンロードされません。宛先テーブルには、上記で説明した file_metadata_file_metadata の構造体からのメタデータ列と、さらに file_id のみが含まれます。