Pendoからデータを取り込む

備考

ベータ版

この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。Databricksのプレビューを管理するを参照してください。

このページでは、LakeFlow Connect を使用して、マネージド Pendo インジェストパイプラインを作成する方法について説明します。

要件

取り込みパイプラインを作成するには、まず、次の要件を満たす必要があります。
- ワークスペースでUnity Catalogが有効になっている必要があります。
- サーバレスコンピュートがワークスペースで有効になっている必要があります。サーバレスコンピュートの要件を参照してください。
- 新しい接続を作成する予定がある場合は、メタストアに対する CREATE CONNECTION 特権が必要です。Unity Catalog での特権の管理を参照してください。
  
  コネクタが UI ベースのパイプラインオーサリングをサポートしている場合、管理者はこのページのステップを完了することで、接続とパイプラインを同時に作成できます。ただし、パイプラインを作成するユーザーが API ベースのパイプラインオーサリングを使用している場合、または管理者以外のユーザーである場合、管理者はまずカタログエクスプローラーで接続を作成する必要があります。「管理対象取り込みソースへの接続」を参照してください。
- 既存の接続を使用する場合：接続オブジェクトに対してUSE CONNECTIONまたはALL PRIVILEGESの権限が必要です。
- ターゲットカタログに対するUSE CATALOG権限が必要です。
- 既存のスキーマに対するUSE SCHEMAおよびCREATE TABLE権限、またはターゲットカタログに対するCREATE SCHEMA権限を持っている必要があります。
Pendo から取り込むには、まず Databricks で認証を構成する必要があります。「管理対象の取り込み用に Pendo を構成する」を参照してください。

取り込みパイプラインを作成

Databricks UI
Declarative Automation Bundles
Databricks notebook

Databricksワークスペースのサイドバーで、 データ取り込み をクリックします。
データの追加 ページの Databricks コネクタ で、 Pendo をクリックします。
取り込みウィザードの接続ページで、Pendoアクセス資格情報を保存している接続を選択します。メタストアに対するCREATE CONNECTION権限をお持ちの場合は、 接続の作成 をクリックして、Pendo接続の作成で認証の詳細を使用して新しい接続を作成できます。
次へをクリックします。
**インジェストセットアップ** ページで、パイプラインの一意の名前を入力します。
イベントログを書き込むカタログとスキーマを選択してください。カタログに対するUSE CATALOG権限とCREATE SCHEMA権限がある場合は、ドロップダウンメニューで スキーマを作成 をクリックして、新しいスキーマを作成できます。
パイプラインの作成および続行 をクリックします。
**ソース**ページで、取り込むテーブルを選択します。
保存して続行 をクリックします。
宛先ページで、データを取り込むカタログとスキーマを選択します。カタログに対するUSE CATALOG権限とCREATE SCHEMA権限がある場合は、ドロップダウンメニューで スキーマを作成 をクリックして、新しいスキーマを作成できます。
保存して続行 をクリックします。
(オプション) スケジュールと通知 ページで、 スケジュールを作成 をクリックします。宛先テーブルを更新する頻度を設定します。
(オプション) 通知の追加 をクリックして、パイプライン操作の成功または失敗に関するEメール通知を設定し、次に パイプラインを保存して実行 をクリックします。

Pendoパイプラインをコードとして管理するには、宣言型オートメーションバンドルを使用してください。バンドルには、ジョブとタスクの YAML 定義を含めることができ、Databricks CLI を使用して管理され、異なるターゲットワークスペース（開発、ステージング、本番運用など）で共有および実行できます。詳細については、「宣言型オートメーションバンドルとは」をご覧ください。

Databricks CLIを使用してバンドルを作成するには、次の手順を実行します。
Bash
```
databricks bundle init
```
バンドルに2つの新しいリソースファイルを追加：
- パイプライン定義ファイル（例えば、resources/pendo_pipeline.yml）です。「パイプライン.ingestion_definition」を参照してください。と例
- データ取り込みの頻度を制御するジョブ定義ファイル（例: resources/pendo_job.yml）。
Databricks CLIを使用してパイプラインをデプロイする：
Bash
```
databricks bundle deploy
```

例

これらの例を使用してパイプラインを構成してください。

スキーマ全体を取り込む

Declarative Automation Bundles
Databricks notebook

次のパイプライン定義ファイルは、サポートされているすべての Pendo テーブルを宛先スキーマに取り込みます：

YAML
resources:
  pipelines:
    pendo_pipeline:
      name: pendo_pipeline
      catalog: 'main'
      target: 'pendo_data'
      ingestion_definition:
        connection_name: pendo_connection
        objects:
          - schema:
              source_schema: 'default'
              destination_catalog: 'main'
              destination_schema: 'pendo_data'

次のパイプライン仕様は、サポートされているすべての Pendo テーブルを宛先スキーマに取り込みます。

Python
pipeline_name = "pendo_pipeline"
connection_name = "<pendo-connection>"
pipeline_spec = {
  "name": pipeline_name,
  "ingestion_definition": {
    "connection_name": connection_name,
    "objects": [
      {
        "schema": {
          "source_schema": "default",
          "destination_catalog": "main",
          "destination_schema": "pendo_data"
        }
      }
    ]
  }
}
json_payload = json.dumps(pipeline_spec, indent=2)
create_pipeline(json_payload)

特定のテーブルを取り込む

個別のPendoテーブルを取り込みます。サポートされているテーブルの完全なリストについては、「サポートされているソーステーブル」を参照してください。

Declarative Automation Bundles
Databricks notebook

次のパイプライン定義ファイルは個別の Pendo テーブルを取り込みます。

YAML
resources:
  pipelines:
    pendo_pipeline:
      name: pendo_pipeline
      catalog: 'main'
      target: 'pendo_data'
      ingestion_definition:
        connection_name: pendo_connection
        objects:
          - table:
              source_schema: 'default'
              source_table: 'page'
              destination_catalog: 'main'
              destination_schema: 'pendo_data'
              destination_table: 'page'
          - table:
              source_schema: 'default'
              source_table: 'feature'
              destination_catalog: 'main'
              destination_schema: 'pendo_data'
              destination_table: 'feature'
          - table:
              source_schema: 'default'
              source_table: 'guide'
              destination_catalog: 'main'
              destination_schema: 'pendo_data'
              destination_table: 'guide'
          - table:
              source_schema: 'default'
              source_table: 'report'
              destination_catalog: 'main'
              destination_schema: 'pendo_data'
              destination_table: 'report'

次のパイプライン仕様は個別の Pendo テーブルを取り込みます。

Python
pipeline_name = "pendo_pipeline"
connection_name = "<pendo-connection>"
pipeline_spec = {
  "name": pipeline_name,
  "ingestion_definition": {
    "connection_name": connection_name,
    "objects": [
      {
        "table": {
          "source_schema": "default",
          "source_table": "page",
          "destination_catalog": "main",
          "destination_schema": "pendo_data",
          "destination_table": "page"
        }
      },
      {
        "table": {
          "source_schema": "default",
          "source_table": "feature",
          "destination_catalog": "main",
          "destination_schema": "pendo_data",
          "destination_table": "feature"
        }
      },
      {
        "table": {
          "source_schema": "default",
          "source_table": "guide",
          "destination_catalog": "main",
          "destination_schema": "pendo_data",
          "destination_table": "guide"
        }
      },
      {
        "table": {
          "source_schema": "default",
          "source_table": "report",
          "destination_catalog": "main",
          "destination_schema": "pendo_data",
          "destination_table": "report"
        }
      }
    ]
  }
}
json_payload = json.dumps(pipeline_spec, indent=2)
create_pipeline(json_payload)

宣言型オートメーションバンドルジョブ定義ファイル

Declarative Automation Bundles

YAML
resources:
  jobs:
    pendo_job:
      name: pendo_job
      schedule:
        quartz_cron_expression: '0 0 0 * * ?'
        timezone_id: 'UTC'
      tasks:
        - task_key: pendo_ingestion
          pipeline_task:
            pipeline_id: ${resources.pipelines.pendo_pipeline.id}

一般的なパターン

高度なパイプライン構成については、「マネージド取り込みパイプラインの一般的なパターン」を参照してください。

次のステップ

パイプラインの開始、スケジュール、アラートを設定する共通パイプラインメンテナンスタスクを参照してください。

要件​

取り込みパイプラインを作成​

例​

スキーマ全体を取り込む​

特定のテーブルを取り込む​

宣言型オートメーションバンドル ジョブ定義ファイル​

一般的なパターン​

次のステップ​

その他のリソース​

要件