Google ドライブコネクターのFAQ

備考

ベータ版

この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。Databricksのプレビューを管理するを参照してください。

このページでは、Databricks LakeFlow Connect の Google Drive コネクタに関してよく寄せられる質問に回答します。

一般マネージドコネクタの FAQ

マネージドコネクタの FAQ の回答は、Lakeflowコネクトのすべてのマネージドコネクタに適用されます。コネクタ固有の FAQ については、引き続きお読みください。

サポートされているファイル形式は何ですか？

コネクタは、非構造化ファイルと構造化ファイルの両方の取り込みに対応しています。

非構造化： BINARYFILE
- ファイルは、content 列とメタデータ列を含む行として取り込まれます。PDF、画像ファイル、Officeファイルなど、後工程で処理するファイルにご利用ください。
構造化：CSV、JSON、XML、EXCEL、PARQUET、AVRO、 ORC
- ファイルは解析され、ファイル内の各行が宛先テーブルの行になります。

コネクタは、取り込み中にサポートされていないGoogle形式（例：Googleフォーム、Googleサイト、Google Jams、Google Vids）をスキップします。

サポートされているストレージモードは何ですか？

非構造化（BINARYFILE）取り込みは、SCD_TYPE_1ストレージモードをサポートしています。構造化された取り込み（CSV、JSON、XML、EXCEL、その他形式）はAPPEND_ONLYストレージモードをサポートしています。SCDタイプ2は現在サポートされていません。

SCD_TYPE_1 と APPEND_ONLY はそれぞれのフォーマットタイプのデフォルトであり、現在サポートされている唯一のオプションでもあるため、table_configuration で storage_mode を明示的に設定することはオプションです。

増分取り込みはどのように機能しますか？

後続のパイプライン実行では、コネクタは前回の実行以降に追加または更新されたファイルのみを再取り込みします。それらのファイル内では増分更新はされません（たとえば、変更されたCSV内の行のみ）。

単一のファイルを取り込めますか？

直接ではありません。コネクタは、フォルダまたはドライブにあるすべてのファイルを取り込みます。しかし、ファイルを含むフォルダーに url を指定し、そのファイル名のみに一致する path_filter glob パターンで file_filters を使用することで、単一ファイルの選択を近似的に実行できます。「Google Drive コネクタリファレンス」を参照してください。

ファイルサイズに制限はありますか？

バイナリファイルを使用した非構造化インジェストの場合、各ファイルのコンテンツが単一のレコードとしてメモリにロードされるため、大きなファイルは更新の失敗（例えば、メモリ不足エラーやDeltaのバイナリ列における2GBの制限超過など）を引き起こす可能性があります。大きなファイルを除外するには、table_configurationのlength列にrow_filterを使用してください。Google Driveコネクタの制限事項を参照してください。

組み込み Google 形式はどのように扱われますか？

管理対象の Google ドライブコネクタを使用する場合、組み込みの Google 形式（Google ドキュメント、Google スプレッドシート、Google スライド）は取り込み時にオープン形式に自動的にエクスポートされます。file_ingestion_optionsのformatをBINARYFILEに設定してバイナリとして取り込むか、Googleスプレッドシートの場合はEXCELを使用します。マネージドコネクタでの Google 形式の処理の詳細については、『組み込み Google 形式の処理方法』を参照してください。

マネージド Google ドライブコネクターと標準 Google ドライブコネクターとの違いは何ですか？

マネージド Google Drive コネクタ（パイプライン API の gdrive_options）は、Google Drive から Delta テーブルにファイルを増分同期するフルマネージドのインジェストパイプラインであり、スキーマ推論、スキーマ進化、ファイルフィルタリング、ワークフローによるオーケストレーション機能を備えています。LakeFlow Connect パイプライン API を介して構成されます。

標準のGoogle Driveコネクタは、SparkおよびSQL関数（read_files、spark.read、Auto Loader）を使用してカスタムパイプラインを構築します。ファイルの読み取りと変換方法をきめ細かく制御する必要がある場合、または Spark reader APIs を直接使用したい場合に利用できます。

一般マネージド コネクタの FAQ​

サポートされているファイル形式は何ですか？​

サポートされているストレージモードは何ですか？​

増分取り込みはどのように機能しますか？​

単一のファイルを取り込めますか？​

ファイルサイズに制限はありますか？​

組み込み Google 形式はどのように扱われますか？​

マネージド Google ドライブ コネクターと標準 Google ドライブ コネクターとの違いは何ですか？​