Google Drive コネクタの制限
このページでは、Databricks LakeFlow Connectを使用したGoogle Drive からの取り込みに関する制限事項と考慮事項を示します。
一般的なSaaSコネクタの制限事項
このセクションの制限事項は、Lakeflowコネクト のすべてのSaaS コネクタに適用されます。
- スケジュールされたパイプラインを実行するとき、アラートはすぐにトリガーされません。代わりに、次の更新が実行されるとトリガーされます。
- ソース テーブルを削除しても、宛先テーブルは自動的に削除されません。宛先テーブルを手動で削除する必要があります。この動作は、 Lakeflow Spark宣言型パイプラインの動作と一致しません。
- ソースのメンテナンス期間中、Databricksはお客様のデータにアクセスできない場合があります。
- ソーステーブル名が既存の宛先テーブル名と競合する場合、パイプラインの更新に失敗します。
- 複数宛先パイプラインのサポートはAPIのみです。
- オプションで、取り込まれたテーブルの名前を変更できます。パイプライン内のテーブルの名前を変更すると、API 専用パイプラインになり、UI でパイプラインを編集できなくなります。
- パイプラインがすでに開始された後に列を選択した場合、コネクタは、新しい列のデータを自動的にバックフィルしません。ヒストリカルデータを取り込むには、テーブルで手動でフル更新を実行してください。
- Databricks は、異なるソース スキーマからのものであっても、同じパイプライン内で同じ名前の 2 つ以上のテーブルを取り込むことはできません。
- ソース システムは、カーソル列が単調に増加すると想定します。
- コネクタは生データを変換なしで取り込みます。変換にはダウンストリームのLakeflow Spark宣言型パイプラインを使用してください。
コネクタ固有の制限事項
- 非構造化データ(
BINARYFILE)の取り込みの場合、コネクタは100MB以下のファイルのみをサポートします。100 MB を超えるファイルのメタデータは取り込まれますが、ファイルコンテンツはダウンロードされません。構造化ファイル形式にはファイルサイズの制限はありません。 - 非構造化(
BINARYFILE)インジェストでは、SCD_TYPE_1ストレージモードのみがサポートされます。構造化されたインジェスト(CSV、JSON、XML、EXCEL、およびその他の形式)は、APPEND_ONLYストレージモードのみをサポートしています。SCDタイプ2はサポートされていません。ストレージモードを構成する際には、table_configurationでstorage_modeを設定します。scd_typeフィールドを設定すると、エラーがスローされます。 - 個別のファイル選択はサポートされていません。コネクタは、構成されたフォルダまたはドライブ内のすべてのファイルを取り込みます。取り込むファイルを絞り込むには、
path_filterglob パターンを指定してfile_filtersを使用します。 - 非構造化(
BINARYFILE)の取り込み時には、共有ドライブから取り込む場合に限り、ファイルの削除が追跡されます。フォルダーから取り込み中に、ファイルの削除は追跡されません。ファイルの更新は両方のケースで追跡されます。 BINARYFILE、CSV、JSON、XML、EXCEL、PARQUET、AVRO、ORCがサポートされています。サポートされていない形式(たとえば、Google Forms、Google Sites)は、取り込み中にスキップされます。