Microsoft SharePoint コネクタ リファレンス
このページには、 Databricks LakeflowコネクトのMicrosoft SharePoint コネクタのリファレンスが含まれています。
sharepoint_optionsパラメーター
パイプライン定義内の各テーブルのconnector_options.sharepoint_optionsブロック内で、これらのオプションを設定します。
パラメーター | Type | 必須 | 説明 |
|---|---|---|---|
| String | はい | 取り込むエンティティタイプ。サポートされている値: |
| String | はい | 取り込むSharePointサイト、サブサイト、ドライブ、またはフォルダーのURL。例:
URL 形式の詳細については、「SharePoint からファイルを読み取る」を参照してください。 |
| オブジェクト | はい | ファイル形式および取り込み動作を制御します。 |
file_ingestion_optionsパラメーター
「sharepoint_options.file_ingestion_options」の中にこれらのオプションを設定します。
パラメーター | Type | 必須 | 説明 |
|---|---|---|---|
| String | はい | 取り込み対象のファイル形式サポートされている値: |
| オブジェクトの配列 | No | どのファイルを取り込むかを制限するフィルター各フィルターオブジェクトは、以下のいずれかのキーを含めることができます。
|
| String | No | 受信ファイル内の新しい列の処理方法を制御します。モードはAuto Loaderのスキーマ進化モードに一致します。サポートされている値: |
| String | No | 推測された列タイプを上書きします。 |
| オブジェクト | No | 形式固有の解析オプションキーは標準のAuto Loader形式オプション名です。「形式オプション」を参照してください。 |
table_configurationパラメーター
パイプライン定義内の各テーブルのtable_configurationブロック内で、これらのオプションを設定します。table_configuration は connector_options の兄弟であり、その中に入れ子になっていません。
パラメーター | Type | 必須 | 説明 |
|---|---|---|---|
| String | No | 宛先テーブルのストレージモード。サポートされている値:
これらはデフォルトであり、サポートされている唯一の値であるため、 |
形式オプション
「format_options」ブロックは、ファイル形式別に以下に整理された標準のAuto Loader形式オプションキーを受け入れます。任意のオプションの完全な詳細については、「Auto Loader」を参照してください。
JSON
キー | 説明 |
|---|---|
| 任意の文字のバックスラッシュエスケープを許可します。 |
| JSONコンテンツ内でJavaスタイルおよびC++スタイルのコメントを許可します。 |
|
|
| 整数値で先頭のゼロの使用を許可します。 |
| 二重引用符に加えて、一重引用符を文字列の区切り文字として使用できます。 |
| JSON文字列での引用符なしの制御文字を許可します。 |
| 引用符で囲まれていないフィールド名を許可します。 |
| パイプラインを停止させずに、破損または解析不能なレコードを保存するパス。 |
| ファイルの文字エンコーディング(例: |
| 日付文字列を解析するためのパターン(例: |
| スキーマ推論中に、すべての値がNULLまたは空の列を無視します。 |
| タイムスタンプパターンに一致する文字列について、 |
| 行区切り文字または文字列。 |
| 日付と数値の解析用ロケール(例えば、 |
| 不正な形式のレコードの動作: |
| 複数行にまたがるレコードを解析します。 |
| 可能な場合は、 |
| すべてのプリミティブ値を |
| スキーマに対する大文字と小文字を区別する列名の照合を有効にします。 |
| タイムスタンプ文字列を解析するための形式(例: |
| タイムスタンプの解析に使うタイムゾーン(例えば、 |
CSV
上記のすべてのJSONオプションをサポートしており、さらに、以下のCSV固有のオプションも利用可能です。
キー | 説明 |
|---|---|
| 引用符付きフィールド内で、引用符文字の前に使用されるエスケープ文字。 |
| 行コメントを表す文字です。この文字で始まる行はスキップされます。 |
| 列の区切り文字(デフォルト: |
| 空の値の書き込み時に使用する文字列。 |
| ヘッダー名を無視して、宣言されたスキーマをCSVデータに適用します。 |
| エスケープ文字(デフォルト:「 |
| 最初の行に列名が含まれるかどうか(デフォルト: |
| 値の先頭の空白を除去します。 |
| 値から末尾の空白をトリムします。 |
| 列値あたりの最大許容文字数。 |
| レコード内で許可されている列の最大数。 |
| 複数のCSVファイルにわたってスキーマをマージします。 |
|
|
| 負の無限大の文字列表現。 |
| null値の文字列表現。 |
| ヘッダー名とスキーマ・フィールド名の大/小文字を区別した照合を有効にします。 |
| 正の無限大の文字列表現。 |
| 日付形式の文字列を |
| 区切り文字を含むフィールド値を囲むために使用されるクォート文字 (デフォルト: |
| ファイルの冒頭で、ヘッダーやデータの前にスキップする行数 |
| 引用符付きフィールド内のエスケープされていない引用符文字の処理方法。 |
XML
キー | 説明 |
|---|---|
| 書き込み時に各配列項目をラップする XML 要素の名前 |
| XML属性名を要素名と区別するために追加されるプレフィックス(デフォルト: |
| 読み取り用圧縮コーデック(例: |
| 書き込み時に先頭に付加するXML宣言文字列。 |
| XMLファイルの文字エンコーディング |
| XML 要素の属性を構文解析から除外します。 |
| 要素値の周囲の空白を無視します。 |
| 解析中にXML名前空間プレフィックスを無視します。 |
| 日付と数値を解析するためのロケール。 |
| 不正な形式のレコードの処理動作: |
| null値の文字列表現。 |
| ルート要素タグ名。 |
| 各行を識別するXML要素タグ(必須)です。 |
| 各行要素の検証用のXSDスキーマファイルへのパス。 |
| スキーマ推論のためにサンプリングされた行の割合(デフォルト: |
| タイムスタンプ文字列を解析するための形式。 |
| タイムゾーンなしのタイムスタンプ文字列を解析するためのパターン。 |
| タイムスタンプを解析するためのタイムゾーン。 |
| XML 要素名が XML 仕様に準拠していることを検証します。 |
| 属性を持つ要素内のテキスト値に使用されるタグ名(デフォルト: |
Parquet
キー | 説明 |
|---|---|
| ユリウス暦形式で記述された日付とタイムスタンプの取り扱い: |
| ユリウス暦形式で記述されたINT96タイムスタンプの処理: |
| 複数のParquetファイルにまたがってスキーマをマージします。 |
Avro
キー | 説明 |
|---|---|
| JSON 文字列形式の Avro スキーマ読み取り時に特定のスキーマを強制適用するために使用します。 |
| ユリウス暦形式で記述された日付とタイムスタンプの取り扱い: |
| 複数のAvroファイルにわたってスキーマをマージします。 |
取り込まれたデータ形式
宛先テーブルのスキーマは、設定するentity_typeとformatによって異なります。
BINARYFILE エンティティタイプ (FILE)
entity_type が FILE で、format が BINARYFILE の場合、取り込まれた各ファイルは以下の列を持つ1行になります。
フィールド | Type | 説明 |
|---|---|---|
|
| ファイルの一意の SharePoint 識別子。 |
|
| 汎用ファイルメタデータが含まれます。
|
|
| ファイルの SharePoint 固有のメタデータが含まれます。
|
|
| ファイルの内容が格納されます。Databricks では、この構造体に直接アクセスすることはお勧めしません。代わりに、 ダウンストリームRAGの使用例のUDFを使用してアクセスします。 |
|
| Databricksは、取り込み中に標準ファイルメタデータを追加します。パスや変更時間などのソースファイル情報を含みます。 |
構造化エンティティタイプ (構造化形式のファイル)
entity_type が FILE で、format が構造化形式(CSV、JSON、XML、EXCEL、PARQUET、AVRO、または ORC)の場合、宛先テーブルのスキーマはソースファイルのスキーマと一致します。列はファイルの内容から推測され、schema_evolution_mode および schema_hints の設定に従います。
FILE_METADATA エンティティタイプ
entity_type が FILE_METADATA の場合、ファイルコンテンツはダウンロードされません。宛先テーブルには、上記で説明した file_metadata と _file_metadata の構造体からのメタデータ列と、さらに file_id のみが含まれます。