メインコンテンツまでスキップ

Confluence コネクタの制限

備考

プレビュー

Confluence コネクタはベータ版です。

この記事では、 Databricks LakeFlow Connectを使用して Confluence からデータを取り込む場合の制限と考慮事項について説明します。

一般的な SaaS コネクタの制限

このセクションの制限事項は、Lakeflowコネクト のすべてのSaaS コネクタに適用されます。

  • スケジュールされたパイプラインを実行しても、アラートはすぐにはトリガーされません。代わりに、次の更新が実行されたときにトリガーされます。
  • ソース テーブルを削除しても、宛先テーブルは自動的に削除されません。宛先テーブルを手動で削除する必要があります。この動作は、 Lakeflow Spark宣言型パイプラインの動作と一致しません。
  • ソースメンテナンス期間中、Databricks はデータにアクセスできない可能性があります。
  • ソース テーブル名が既存の宛先テーブル名と競合する場合、パイプラインの更新は失敗します。
  • 複数の宛先パイプラインのサポートは API のみです。
  • オプションで、取り込むテーブルの名前を変更できます。パイプライン内のテーブルの名前を変更すると、そのパイプラインは API 専用となり、UI でパイプラインを編集できなくなります。
  • 列レベルの選択と選択解除は API のみです。
  • パイプラインが既に開始された後に列を選択した場合、コネクタは新しい列のデータを自動的にバックフィルしません。履歴データを取り込むには、テーブルで完全な更新を手動で実行します。
  • Databricks は、異なるソース スキーマからのものである場合でも、同じパイプラインに同じ名前を持つ 2 つ以上のテーブルを取り込むことはできません。
  • ソース システムは、カーソル列が単調に増加すると想定します。
  • SCDタイプ 1 が有効になっている場合、削除によって変更データフィードに明示的なdeleteイベントが生成されません。 監査可能な削除の場合、コネクタがサポートしている場合は SCD タイプ 2 を使用します。詳細については、 「例: CDF ソース データを使用した SCD タイプ 1 および SCD タイプ 2 の処理」を参照してください。
  • コネクタは、変換せずに生データを取り込みます。変換にはダウンストリームのLakeFlow Spark宣言型パイプライン パイプラインを使用します。

コネクタ固有の制限

このセクションの制限は、Confluence コネクタに固有のものです。

サポートされているデータ

コネクタは Confluence から次のテーブルのみを取り込みま す。

  • pages
  • spaces
  • labels
  • classification_levels
  • blogposts
  • attachments

展開モード

コネクタは Confluence クラウドのみをサポートします。

ACL摂取

現在、コネクタは Confluence ACL の取り込みをサポートしていません。同様に、データ ソースの ACL が変更された場合、コネクタは再取り込みをトリガーしません。

パイプライン

UI ベースのパイプラインの作成はサポートされていません。パイプラインを作成するには、 Databricks CLI 、 APIs 、SDK、またはDatabricksアセット バンドルを使用する必要があります。

コンテンツの摂取

  • 添付ファイルは取り込まれません。取り込まれたデータには、添付ファイルのメタデータ (ファイル名、サイズ、コンテンツ タイプ、アップロード日) のみが含まれます。
  • ページコメントは取り込まれません。ページのコンテンツとメタデータのみが含まれます。
  • アーカイブされたスペースは取り込まれません。取り込みパイプラインにはアクティブなスペースのみが含まれます。

API レート制限

  • コネクタは Confluence API レート制限の対象となります。レート制限を超えると、パイプラインの速度が低下したり、一時的に失敗したりする可能性があります。コネクタは指数バックオフで自動的に再試行します。
  • Databricks では、レート制限の影響を最小限に抑えるために、パイプラインの実行をオフピーク時間帯にスケジュールすることを推奨しています。

認証

  • コネクタにはOAuth U2M 認証が必要です。基本認証はサポートされていません。

パフォーマンスに関する考慮事項

  • 多数のページがある大規模な Confluence インスタンスの場合、初期パイプライン実行 (完全なスナップショット) に時間がかかることがあります。
  • 増分取り込みのパフォーマンスは、前回の実行以降に変更されたページの数によって異なります。
  • コンテンツが大量にあるページや添付ファイルが多いページの場合、取り込みに時間がかかることがあります。

カーソルに反映されない変更については、次の制限があります。

  • 増分的に取り込まれたテーブルの場合、コネクタはソフト削除をサポートします (たとえば、Confluence でゴミ箱に移動されたレコード)。ただし、ハード削除 (たとえば、Confluence で「削除」されたレコード) はサポートされていません。ハード削除を反映するには、パイプラインの完全更新を実行する必要があります。

    スペースを削除すると、そのスペースのすべてのページと添付ファイルが物理的に削除されます。したがって、これらの削除は宛先テーブルに反映されません。ただし、親ページがソフト削除されると、そのすべての子ページと添付ファイルが宛先テーブルから削除されます。

  • 増分テーブルのアーカイブされたコンテンツはサポートされていません。

  • ページまたはブログ投稿が 1 つのスペースから別のスペースへ、または 1 つの親から別の親へ移動された場合、対応するspaceIdは更新されません。

  • 復元されたレコード: ソースでページまたはブログ投稿を削除した後に復元した場合、コネクタはそれを再取り込みしません。