Google ドライブ コネクターのFAQ
ベータ版
この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。Databricksのプレビューを管理するを参照してください。
このページでは、Databricks LakeFlow Connect の Google Drive コネクタに関してよく寄せられる質問に回答します。
一般マネージド コネクタの FAQ
マネージドコネクタの FAQ の回答は、Lakeflowコネクトのすべてのマネージド コネクタに適用されます。コネクタ固有の FAQ については、引き続きお読みください。
サポートされているファイル形式は何ですか?
コネクタは、非構造化ファイルと構造化ファイルの両方の取り込みに対応しています。
-
非構造化:
BINARYFILE- ファイルは、
content列とメタデータ列を含む行として取り込まれます。PDF、画像ファイル、Officeファイルなど、後工程で処理するファイルにご利用ください。
- ファイルは、
-
構造化:
CSV、JSON、XML、EXCEL、PARQUET、AVRO、ORC- ファイルは解析され、ファイル内の各行が宛先テーブルの行になります。
コネクタは、取り込み中にサポートされていないGoogle形式(例:Googleフォーム、Googleサイト、Google Jams、Google Vids)をスキップします。
サポートされているストレージモードは何ですか?
非構造化(BINARYFILE)取り込みは、SCD_TYPE_1ストレージモードをサポートしています。構造化された取り込み(CSV、JSON、XML、EXCEL、その他形式)はAPPEND_ONLYストレージモードをサポートしています。SCDタイプ2は現在サポートされていません。
SCD_TYPE_1 と APPEND_ONLY はそれぞれのフォーマットタイプのデフォルトであり、現在サポートされている唯一のオプションでもあるため、table_configuration で storage_mode を明示的に設定することはオプションです。
増分取り込みはどのように機能しますか?
後続のパイプライン実行では、コネクタは前回の実行以降に追加または更新されたファイルのみを再取り込みします。それらのファイル内では増分更新はされません(たとえば、変更されたCSV内の行のみ)。
単一のファイルを取り込めますか?
直接ではありません。コネクタは、フォルダまたはドライブにあるすべてのファイルを取り込みます。しかし、ファイルを含むフォルダーに url を指定し、そのファイル名のみに一致する path_filter glob パターンで file_filters を使用することで、単一ファイルの選択を近似的に実行できます。「Google Drive コネクタ リファレンス」を参照してください。
ファイルサイズに制限はありますか?
非構造化(BINARYFILE)インジェストの場合、サイズの大きいファイルはパイプラインのパフォーマンスに影響を与える可能性があります。Databricksでは、1時間あたり最大1回の取り込みを行い、リソース圧迫の兆候がないかパイプラインの実行時間をモニタリングすることをお勧めします。
組み込み Google 形式はどのように扱われますか?
管理対象の Google ドライブ コネクタを使用する場合、組み込みの Google 形式(Google ドキュメント、Google スプレッドシート、Google スライド)は取り込み時にオープン形式に自動的にエクスポートされます。file_ingestion_optionsのformatをBINARYFILEに設定してバイナリとして取り込むか、Googleスプレッドシートの場合はEXCELを使用します。マネージド コネクタでの Google 形式の処理の詳細については、『組み込み Google 形式の処理方法』を参照してください。
マネージド Google ドライブ コネクターと標準 Google ドライブ コネクターとの違いは何ですか?
マネージド Google Drive コネクタ(パイプライン API の gdrive_options)は、Google Drive から Delta テーブルにファイルを増分同期するフルマネージドのインジェストパイプラインであり、スキーマ推論、スキーマ進化、ファイルフィルタリング、ワークフローによるオーケストレーション機能を備えています。LakeFlow Connect パイプライン API を介して構成されます。
標準のGoogle Driveコネクタは、SparkおよびSQL関数(read_files、spark.read、Auto Loader)を使用してカスタムパイプラインを構築します。ファイルの読み取りと変換方法をきめ細かく制御する必要がある場合、または Spark reader APIs を直接使用したい場合に利用できます。