Pendoからデータを取り込む
ベータ版
この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。Databricksのプレビューを管理するを参照してください。
このページでは、LakeFlow Connect を使用して、マネージド Pendo インジェストパイプラインを作成する方法について説明します。
要件
-
取り込みパイプラインを作成するには、まず、次の要件を満たす必要があります。
-
ワークスペースでUnity Catalogが有効になっている必要があります。
-
サーバレス コンピュートがワークスペースで有効になっている必要があります。サーバレス コンピュートの要件を参照してください。
-
新しい接続を作成する予定がある場合は、メタストアに対する
CREATE CONNECTION特権が必要です。Unity Catalog での特権の管理を参照してください。コネクタが UI ベースのパイプライン オーサリングをサポートしている場合、管理者はこのページのステップを完了することで、接続とパイプラインを同時に作成できます。 ただし、パイプラインを作成するユーザーが API ベースのパイプライン オーサリングを使用している場合、または管理者以外のユーザーである場合、管理者はまずカタログ エクスプローラーで接続を作成する必要があります。 「管理対象取り込みソースへの接続」を参照してください。
-
既存の接続を使用する場合:接続オブジェクトに対して
USE CONNECTIONまたはALL PRIVILEGESの権限が必要です。 -
ターゲットカタログに対する
USE CATALOG権限が必要です。 -
既存のスキーマに対する
USE SCHEMAおよびCREATE TABLE権限、またはターゲットカタログに対するCREATE SCHEMA権限を持っている必要があります。
-
-
Pendo から取り込むには、まず Databricks で認証を構成する必要があります。「管理対象の取り込み用に Pendo を構成する」を参照してください。
取り込みパイプラインを作成
- Databricks UI
- Declarative Automation Bundles
- Databricks notebook
- Databricksワークスペースのサイドバーで、 データ取り込み をクリックします。
- データの追加 ページの Databricks コネクタ で、 Pendo をクリックします。
- 取り込みウィザードの 接続 ページで、Pendoアクセス資格情報を保存している接続を選択します。メタストアに対する
CREATE CONNECTION権限をお持ちの場合は、接続の作成 をクリックして、Pendo接続の作成で認証の詳細を使用して新しい接続を作成できます。
- 次へ をクリックします。
- **インジェスト セットアップ** ページで、パイプラインの一意の名前を入力します。
- イベントログを書き込むカタログとスキーマを選択してください。カタログに対する
USE CATALOG権限とCREATE SCHEMA権限がある場合は、ドロップダウンメニューでスキーマを作成 をクリックして、新しいスキーマを作成できます。
- パイプラインの作成および続行 をクリックします。
- **ソース**ページで、取り込むテーブルを選択します。
- 保存して続行 をクリックします。
- 宛先 ページで、データを取り込むカタログとスキーマを選択します。カタログに対する
USE CATALOG権限とCREATE SCHEMA権限がある場合は、ドロップダウンメニューでスキーマを作成 をクリックして、新しいスキーマを作成できます。
- 保存して続行 をクリックします。
- (オプション) スケジュールと通知 ページで、
スケジュールを作成 をクリックします。宛先テーブルを更新する頻度を設定します。
- (オプション)
通知の追加 をクリックして、パイプライン操作の成功または失敗に関するEメール通知を設定し、次に パイプラインを保存して実行 をクリックします。
Pendoパイプラインをコードとして管理するには、宣言型オートメーションバンドルを使用してください。バンドルには、ジョブとタスクの YAML 定義を含めることができ、Databricks CLI を使用して管理され、異なるターゲット ワークスペース(開発、ステージング、本番運用など)で共有および実行できます。詳細については、「宣言型オートメーションバンドルとは」をご覧ください。
-
Databricks CLIを使用してバンドルを作成するには、次の手順を実行します。
Bashdatabricks bundle init -
バンドルに2つの新しいリソースファイルを追加:
- パイプライン定義ファイル(例えば、
resources/pendo_pipeline.yml)です。「パイプライン.ingestion_definition」を参照してください。と例 - データ取り込みの頻度を制御するジョブ定義ファイル(例:
resources/pendo_job.yml)。
- パイプライン定義ファイル(例えば、
-
Databricks CLIを使用してパイプラインをデプロイする:
Bashdatabricks bundle deploy
- 次のノートブックをDatabricksワークスペースにインポートしてください:
-
セル1とセル2はそのままにしてください。変更しないでください。
-
セル3をパイプライン構成の詳細で変更してください。「パイプライン.ingestion_definition」を参照してください。と例。
-
オプションで詳細パイプライン設定を設定します。管理対象の取り込みパイプラインの共通パターンを参照してください。
-
「 すべて実行 」をクリックします。
例
これらの例を使用してパイプラインを構成してください。
スキーマ全体を取り込む
- Declarative Automation Bundles
- Databricks notebook
次のパイプライン定義ファイルは、サポートされているすべての Pendo テーブルを宛先スキーマに取り込みます:
resources:
pipelines:
pendo_pipeline:
name: pendo_pipeline
catalog: 'main'
target: 'pendo_data'
ingestion_definition:
connection_name: pendo_connection
objects:
- schema:
source_schema: 'default'
destination_catalog: 'main'
destination_schema: 'pendo_data'
次のパイプライン仕様は、サポートされているすべての Pendo テーブルを宛先スキーマに取り込みます。
pipeline_name = "pendo_pipeline"
connection_name = "<pendo-connection>"
pipeline_spec = {
"name": pipeline_name,
"ingestion_definition": {
"connection_name": connection_name,
"objects": [
{
"schema": {
"source_schema": "default",
"destination_catalog": "main",
"destination_schema": "pendo_data"
}
}
]
}
}
json_payload = json.dumps(pipeline_spec, indent=2)
create_pipeline(json_payload)
特定のテーブルを取り込む
個別のPendoテーブルを取り込みます。サポートされているテーブルの完全なリストについては、「サポートされているソース テーブル」を参照してください。
- Declarative Automation Bundles
- Databricks notebook
次のパイプライン定義ファイルは個別の Pendo テーブルを取り込みます。
resources:
pipelines:
pendo_pipeline:
name: pendo_pipeline
catalog: 'main'
target: 'pendo_data'
ingestion_definition:
connection_name: pendo_connection
objects:
- table:
source_schema: 'default'
source_table: 'page'
destination_catalog: 'main'
destination_schema: 'pendo_data'
destination_table: 'page'
- table:
source_schema: 'default'
source_table: 'feature'
destination_catalog: 'main'
destination_schema: 'pendo_data'
destination_table: 'feature'
- table:
source_schema: 'default'
source_table: 'guide'
destination_catalog: 'main'
destination_schema: 'pendo_data'
destination_table: 'guide'
- table:
source_schema: 'default'
source_table: 'report'
destination_catalog: 'main'
destination_schema: 'pendo_data'
destination_table: 'report'
次のパイプライン仕様は個別の Pendo テーブルを取り込みます。
pipeline_name = "pendo_pipeline"
connection_name = "<pendo-connection>"
pipeline_spec = {
"name": pipeline_name,
"ingestion_definition": {
"connection_name": connection_name,
"objects": [
{
"table": {
"source_schema": "default",
"source_table": "page",
"destination_catalog": "main",
"destination_schema": "pendo_data",
"destination_table": "page"
}
},
{
"table": {
"source_schema": "default",
"source_table": "feature",
"destination_catalog": "main",
"destination_schema": "pendo_data",
"destination_table": "feature"
}
},
{
"table": {
"source_schema": "default",
"source_table": "guide",
"destination_catalog": "main",
"destination_schema": "pendo_data",
"destination_table": "guide"
}
},
{
"table": {
"source_schema": "default",
"source_table": "report",
"destination_catalog": "main",
"destination_schema": "pendo_data",
"destination_table": "report"
}
}
]
}
}
json_payload = json.dumps(pipeline_spec, indent=2)
create_pipeline(json_payload)
宣言型オートメーションバンドル ジョブ定義ファイル
- Declarative Automation Bundles
resources:
jobs:
pendo_job:
name: pendo_job
schedule:
quartz_cron_expression: '0 0 0 * * ?'
timezone_id: 'UTC'
tasks:
- task_key: pendo_ingestion
pipeline_task:
pipeline_id: ${resources.pipelines.pendo_pipeline.id}
一般的なパターン
高度なパイプライン構成については、「マネージド取り込みパイプラインの一般的なパターン」を参照してください。
次のステップ
パイプラインの開始、スケジュール、アラートを設定する共通パイプラインメンテナンス タスクを参照してください。