Google Drive コネクタ リファレンス
このページには、 Databricks Lakeflow Connect の Google Drive コネクタのリファレンスが含まれています。
gdrive_optionsパラメーター
パイプライン定義の各テーブルのconnector_options.gdrive_optionsブロック内で、これらのオプションを設定します。
パラメーター | Type | 必須 | 説明 |
|---|---|---|---|
| String | はい | 取り込み対象のエンティティタイプです。サポートされている値:
|
| String | はい | 取り込み元の Google ドライブ フォルダーまたは共有ドライブの URL。例:
|
| オブジェクト | はい | ファイル形式と取り込み動作を制御します。 |
file_ingestion_optionsパラメーター
これらのオプションをgdrive_options.file_ingestion_options内で設定してください。
パラメーター | Type | 必須 | 説明 |
|---|---|---|---|
| String | はい | 取り込むファイル形式です。サポートされている値: |
| オブジェクトの配列 | No | 取り込むファイルを制限するフィルター各フィルターオブジェクトは次のいずれかのキーを含めることができます。
|
| String | No | 受信ファイルにおける新規列の処理方法を制御します。モードはAuto Loaderのスキーマ進化モードと一致します。サポートされている値: |
| String | No | 推論された列タイプを上書きします。 |
| オブジェクト | No | 形式固有の解析オプションキーは標準的なAuto Loader形式のオプション名です。「形式オプション」を参照してください。 |
table_configurationパラメーター
パイプライン定義の各テーブルのtable_configurationブロック内で、これらのオプションを設定します。table_configuration は connector_options の兄弟であり、入れ子ではありません。
パラメーター | Type | 必須 | 説明 |
|---|---|---|---|
| String | No | 宛先テーブルのストレージモード。サポートされている値:
これらはデフォルトであり、サポートされている唯一の値であるため、 |
形式オプション
format_optionsブロックは、標準的なAuto Loaderの形式オプションキーを受け入れ、ファイル形式別に以下に整理されています。詳細については、「Auto Loader」を参照してください。
JSON
キー | 説明 |
|---|---|
| 任意の文字のバックスラッシュエスケープを許可します。 |
| JSONコンテンツ内でJavaおよびC++スタイルのコメントを許可します。 |
|
|
| 整数値で先頭のゼロを許容します。 |
| 二重引用符に加えて、一重引用符を文字列の区切り文字として許可します。 |
| JSON文字列内で引用符で囲まれていない制御文字を許可します。 |
| 引用符で囲まれていないフィールド名を許可します。 |
| パイプラインの失敗を防ぐため、破損または解析不能なレコードを保存するパス。 |
| ファイルの文字エンコーディング(例: |
| 日付文字列を解析するための書式(例: |
| スキーマ推論中に、すべての値がnullまたは空である列を無視します。 |
| タイムスタンプパターンに一致する文字列を |
| 行区切り文字または文字列。 |
| 日付と数値の解析用ロケール(たとえば、 |
| 不正な形式のレコードの動作: |
| 複数行にまたがるレコードを解析します。 |
| 可能な場合は、 |
| すべてのプリミティブ値を |
| スキーマに対する列名の大文字と小文字を区別した照合を有効にします。 |
| タイムスタンプ文字列を解析するためのパターン(例: |
| タイムスタンプの解析用のタイムゾーン(たとえば、 |
CSV
上記のすべてのJSONオプションに加え、以下のCSV固有のオプションもサポートしています。
キー | 説明 |
|---|---|
| 引用符で囲まれたフィールド内で、引用符の前に使用されるエスケープ文字。 |
| 行をコメントとしてマークする文字;この文字で始まる行はスキップされます。 |
| 列の区切り文字(デフォルト: |
| 書き込み時に空の値として使用する文字列。 |
| 宣言されたスキーマをCSVデータに適用し、ヘッダー名を無視します。 |
| エスケープ文字(デフォルト:「 |
| 最初の行に列名が含まれるかどうか(デフォルト: |
| 値の先頭の空白を除去します。 |
| 値の末尾の空白を削除します。 |
| 列値ごとに許可される最大文字数。 |
| レコード内で許可されている列の最大数。 |
| 複数のCSVファイルにまたがるスキーマをマージします。 |
| 「 |
| 負の無限大の文字列表現。 |
| null値を表す文字列。 |
| ヘッダー名とスキーマのフィールド名との間で、大文字と小文字を区別した一致を有効にします。 |
| 正の無限大の文字列表現。 |
| 日付形式の文字列を、 |
| 区切り文字を含むフィールド値を囲むのに使用される引用符 (デフォルト: |
| ファイルの冒頭でヘッダーまたはデータより前にスキップする行数。 |
| 引用符付きフィールド内のエスケープされていない引用符の処理方法。 |
XML
キー | 説明 |
|---|---|
| 書き込み時に各配列項目をラップするXML要素名 |
| XML属性名を要素名と区別するためのプレフィックス(デフォルト: |
| 読み取り用の圧縮コーデック(たとえば、 |
| 書き込み時に先頭に追加するXML宣言文字列。 |
| XMLファイルの文字エンコーディング。 |
| XML要素の属性を構文解析から除外します。 |
| 値から周囲の空白を無視します。 |
| 解析時にXMLの名前空間プレフィックスを無視します。 |
| 日付と数値を解析するためのロケール。 |
| 不正な形式のレコードの動作: |
| null値を表す文字列。 |
| ルート要素タグ名。 |
| 各行を識別する XML 要素タグ(必須)。 |
| 各行要素の検証に使用する XSD スキーマファイルへのパス。 |
| スキーマ推論用にサンプリングされた行の割合(デフォルト: |
| タイムスタンプ文字列を解析するための形式。 |
| タイムゾーンなしのタイムスタンプ文字列を解析するためのパターン。 |
| タイムスタンプをパースするためのタイムゾーン。 |
| XML 要素名が XML 仕様に準拠していることを検証します。 |
| 属性も持つ要素内のテキスト値に使用されるタグ名(デフォルト: |
Parquet
キー | 説明 |
|---|---|
| ユリウス暦形式で記述された日付とタイムスタンプの処理: |
| ユリウス暦形式のINT96タイムスタンプの処理: |
| 複数のParquetファイルにまたがるスキーマをマージします。 |
Avro
キー | 説明 |
|---|---|
| JSON文字列形式のAvroスキーマ。読み込み時に特定のスキーマを強制適用するために使用します。 |
| ユリウス暦形式で記述された日付とタイムスタンプの処理: |
| 複数のAvroファイルにまたがるスキーマをマージします。 |
取り込み済みデータ形式
宛先テーブルのスキーマは、構成するentity_typeおよびformatによって異なります。
BINARYFILE エンティティタイプ (ファイル)
entity_typeがFILEでformatがBINARYFILEの場合、取り込まれた各ファイルは以下の列を持つ1行になります。
フィールド | Type | 説明 |
|---|---|---|
|
| Google ドライブのファイルの識別子です。 |
|
| 汎用的なファイルメタデータが含まれています。
|
|
| ファイルの Google Drive 固有のメタデータ:
|
|
| ファイルの内容が含まれています。 |
|
| Databricksによって取り込み中に追加された標準ファイルメタデータ。パスと最終更新時間などのソースファイル情報が含まれます。 |
構造化されたエンティティタイプ (構造化された形式のファイル)
entity_typeがFILEであり、formatが構造化されたフォーマット(CSV、JSON、XML、EXCEL、PARQUET、AVRO、またはORC)である場合、宛先テーブルスキーマはソースファイルのスキーマと一致します。列は、schema_evolution_mode および schema_hints の設定に基づいて、ファイルの内容から推測されます。
「FILE_METADATA エンティティタイプ」
entity_typeがFILE_METADATAの場合、ファイルコンテンツはダウンロードされません。宛先テーブルには、上記の file_metadata および _file_metadata 構造体からのメタデータ列と file_id のみが含まれています。