メインコンテンツまでスキップ

Confluence取り込みパイプラインを作成する

備考

プレビュー

Confluence コネクタはベータ版です。

このページでは、 Databricks LakeFlow Connectを使用して Confluence 取り込みパイプラインを作成する方法について説明します。 次のインターフェースがサポートされています。

  • Databricksアセットバンドル
  • Databricks API
  • Databricks SDK
  • Databricks CLI

始める前に

取り込みパイプラインを作成するには、次の要件を満たす必要があります。

  • ワークスペースでUnity Catalogが有効になっている必要があります。

  • ワークスペースでサーバレスコンピュートを有効にする必要があります。 「サーバレス コンピュート要件」を参照してください。

  • 新しい接続を作成する場合: メタストアに対するCREATE CONNECTION権限が必要です。

    コネクタが UI ベースのパイプライン オーサリングをサポートしている場合、管理者はこのページのステップを完了することで、接続とパイプラインを同時に作成できます。 ただし、パイプラインを作成するユーザーが API ベースのパイプライン オーサリングを使用している場合、または管理者以外のユーザーである場合、管理者はまずカタログ エクスプローラーで接続を作成する必要があります。 「管理対象取り込みソースへの接続」を参照してください。

  • 既存の接続を使用する場合: 接続オブジェクトに対するUSE CONNECTION権限またはALL PRIVILEGESが必要です。

  • ターゲット カタログに対するUSE CATALOG権限が必要です。

  • 既存のスキーマに対するUSE SCHEMAおよびCREATE TABLE権限、またはターゲット カタログに対するCREATE SCHEMA権限が必要です。

Confluence から取り込むには、 「Confluence 取り込み用の OAuth U2M を構成する」を参照してください。

取り込みパイプラインを作成する

取り込みパイプラインを作成するには、接続にUSE CONNECTIONまたはALL PRIVILEGESが必要です。

このステップでは、インジェスト パイプラインの作成方法を説明します。 取り込まれた各テーブルは、同じ名前のストリーミング テーブルに書き込まれます。

  1. Databricks CLI を使用して新しいバンドルを作成します。

    Bash
    databricks bundle init
  2. バンドルに 2 つの新しいリソース ファイルを追加します。

    • パイプライン定義ファイル ( resources/confluence_pipeline.yml )。
    • データ取り込みの頻度を制御するワークフロー ファイル ( resources/confluence_job.yml )。

    以下はresources/confluence_pipeline.ymlファイルの例です。

    YAML
    variables:
    dest_catalog:
    default: main
    dest_schema:
    default: ingest_destination_schema

    # The main pipeline for confluence_dab
    resources:
    pipelines:
    pipeline_confluence:
    name: confluence_pipeline
    catalog: ${var.dest_catalog}
    target: ${var.dest_schema}
    ingestion_definition:
    connection_name: confluence_connection
    objects:
    - table:
    source_schema: default
    source_table: pages
    destination_catalog: ${var.dest_catalog}
    destination_schema: ${var.dest_schema}
    destination_table: <table-name>

    以下はresources/confluence_job.ymlファイルの例です。

    YAML
    resources:
    jobs:
    confluence_dab_job:
    name: confluence_dab_job

    trigger:
    # Run this job every day, exactly one day from the last run
    # See https://docs.databricks.com/api/workspace/jobs/create#trigger
    periodic:
    interval: 1
    unit: DAYS

    email_notifications:
    on_failure:
    - <email-address>

    tasks:
    - task_key: refresh_pipeline
    pipeline_task:
    pipeline_id: ${resources.pipelines.pipeline_confluence.id}
  3. Databricks CLI を使用してパイプラインをデプロイします。

    Bash
    databricks bundle deploy

次のステップ

追加のリソース