Veeva Vault からデータを取り込む
ベータ版
この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。Databricksのプレビューを管理するを参照してください。
このページでは、Lakeflow Connectを使用してマネージド Veeva Vault インジェストパイプラインを作成する方法を示します。
要件
-
取り込み パイプラインを作成するには、まず次の要件を満たす必要があります。
-
ワークスペースでUnity Catalogが有効になっている必要があります。
-
ワークスペースでサーバレス コンピュートを有効にする必要があります。サーバレス コンピュートの要件を参照してください。
-
新しい接続を作成する場合は:メタストアに対する
CREATE CONNECTION権限が必要です。Unity Catalog での権限の管理を参照してください。コネクタが UI ベースのパイプライン オーサリングをサポートしている場合、管理者はこのページのステップを完了することで、接続とパイプラインを同時に作成できます。 ただし、パイプラインを作成するユーザーが API ベースのパイプライン オーサリングを使用している場合、または管理者以外のユーザーである場合、管理者はまずカタログ エクスプローラーで接続を作成する必要があります。 「管理対象取り込みソースへの接続」を参照してください。
-
既存の接続を使用する場合:接続オブジェクトに対して
USE CONNECTION特権またはALL PRIVILEGESが必要です。 -
ターゲットカタログに対する
USE CATALOG権限が必要です。 -
既存のスキーマに対する
USE SCHEMAおよびCREATE TABLE特権、またはターゲットカタログに対するCREATE SCHEMA特権を所有している必要があります。
-
-
Veeva Vaultから取り込むには、まずDatabricksから認証を設定し、接続を作成します。OAuth 2.0 M2M認証のためにVeeva Vaultを設定およびVeeva Vault接続を作成を参照してください。
取り込みパイプラインを作成
- Databricks UI
- Declarative Automation Bundles
- Databricks notebook
-
Databricksワークスペースのサイドバーで、 データ取り込み をクリックします。
-
データの追加 ページの Databricks コネクタ で、 Veeva Vault をクリックします。
-
取り込みウィザードの 接続 ページで、Veeva Vault 認証情報を保存する接続を選択します。
CREATE CONNECTIONメタストアに対する 特権をお持ちの場合は、接続の作成 をクリックして、 OAuth 2.0 M2M 認証用に Veeva Vault を構成する からの認証情報で接続を作成します。
-
次へ をクリックします。
-
インジェスト セットアップ ページで、パイプラインの名前を入力します。
-
イベントログの書き込み先となるカタログとスキーマを選択してください。カタログに対する
USE CATALOGおよびCREATE SCHEMA権限がある場合は、ドロップダウンメニューのスキーマを作成 をクリックしてスキーマを作成します。
-
パイプラインの作成および続行 をクリックします。
-
ソース ページで、取り込むオブジェクトを選択します。
-
保存して続行 をクリックします。
-
宛先 ページで、データを読み込むカタログとスキーマを選択します。カタログに対する
USE CATALOGおよびCREATE SCHEMA権限がある場合は、ドロップダウンメニューのスキーマの作成 をクリックして、スキーマを作成します。
-
保存して続行 をクリックします。
-
(オプション) [スケジュールと通知] ページで、
[スケジュールの作成] をクリックします。宛先テーブルを更新する頻度を設定します。
Veeva は 15 分ごとにインクリメンタルアーカイブを生成します。15分ごとに実行するよりも頻繁にパイプラインをスケジュールしても、追加のデータは生成されません。
- (オプション)
通知を追加 をクリックしてパイプライン操作の成功または失敗に対するEメール通知を設定し、次に パイプラインを保存して実行 をクリックします。
宣言型オートメーションバンドルを使用して、Veeva Vault パイプラインをコードとして管理します。バンドルにはジョブとタスクの YAML 定義を含めることができ、Databricks CLI を使用して管理され、異なるターゲットワークスペース(開発、ステージング、本番運用など)で共有および実行できます。詳細情報については、「宣言型オートメーションバンドルとは」を参照してください。
-
Databricks CLI を使用してバンドルを作成します。
Bashdatabricks bundle init -
バンドルに2つの新しいリソースファイルを追加します。
- パイプライン定義ファイル(例えば、
resources/veeva_vault_pipeline.yml)。「パイプライン.ingestion_definition」を参照してください。と 例。 - データ取り込みの頻度を制御するジョブ定義ファイル(例:
resources/veeva_vault_job.yml)。
- パイプライン定義ファイル(例えば、
-
Databricks CLIを使用してパイプラインをデプロイする:
Bashdatabricks bundle deploy
- 次のノートブックをDatabricksワークスペースにインポートしてください。
Veeva Vault取り込みパイプラインを作成
-
セル 1 と 2 はそのままにしておきます。変更しないでください。
-
セル 3 をパイプライン構成の詳細で修正してください。「パイプライン.ingestion_definition」を参照してください。および例。
-
必要に応じて、高度なパイプライン設定を構成します。「管理された取り込みパイプラインの一般的なパターン」をご覧ください。
-
「 すべて実行 」をクリックします。
例
Veeva Vault オブジェクトは、default ソース スキーマの下で公開されます。個々のオブジェクトまたはスキーマ全体を取り込みます。
特定のオブジェクトを取り込む
このオプションを使用して、オブジェクトの特定のサブセットを取り込むか、オブジェクトごとに宛先名をカスタマイズします。
- Declarative Automation Bundles
- Databricks notebook
次のパイプライン定義ファイルは、個々の Veeva Vault オブジェクトを取り込みます。
resources:
pipelines:
veeva_vault_pipeline:
name: veeva_vault_pipeline
catalog: 'main'
target: 'veeva_data'
ingestion_definition:
connection_name: veeva_vault_connection
objects:
- table:
source_schema: 'default'
source_table: 'opportunity__v'
destination_catalog: 'main'
destination_schema: 'veeva_data'
destination_table: 'opportunity'
- table:
source_schema: 'default'
source_table: 'account__v'
destination_catalog: 'main'
destination_schema: 'veeva_data'
destination_table: 'account'
以下のパイプライン仕様により、個別の Veeva Vault オブジェクトを取り込みます:
pipeline_name = "veeva_vault_pipeline"
connection_name = "<veeva-vault-connection>"
pipeline_spec = {
"name": pipeline_name,
"ingestion_definition": {
"connection_name": connection_name,
"objects": [
{
"table": {
"source_schema": "default",
"source_table": "opportunity__v",
"destination_catalog": "main",
"destination_schema": "veeva_data",
"destination_table": "opportunity"
}
},
{
"table": {
"source_schema": "default",
"source_table": "account__v",
"destination_catalog": "main",
"destination_schema": "veeva_data",
"destination_table": "account"
}
}
]
}
}
json_payload = json.dumps(pipeline_spec, indent=2)
create_pipeline(json_payload)
すべてのオブジェクトを取り込みます。
このオプションを使用すると、単一の宣言で、すべてのVeeva Vaultオブジェクトを単一の宛先スキーマにイングレスできます。
- Declarative Automation Bundles
- Databricks notebook
次のパイプライン定義ファイルは、サポートされているすべてのVeeva Vaultオブジェクトを宛先スキーマに取り込みます。
resources:
pipelines:
veeva_vault_pipeline:
name: veeva_vault_pipeline
catalog: 'main'
target: 'veeva_data'
ingestion_definition:
connection_name: veeva_vault_connection
objects:
- schema:
source_schema: 'default'
destination_catalog: 'main'
destination_schema: 'veeva_data'
以下のパイプライン仕様は、サポートされているすべての Veeva Vault オブジェクトを宛先スキーマに取り込みます。
pipeline_name = "veeva_vault_pipeline"
connection_name = "<veeva-vault-connection>"
pipeline_spec = {
"name": pipeline_name,
"ingestion_definition": {
"connection_name": connection_name,
"objects": [
{
"schema": {
"source_schema": "default",
"destination_catalog": "main",
"destination_schema": "veeva_data"
}
}
]
}
}
json_payload = json.dumps(pipeline_spec, indent=2)
create_pipeline(json_payload)
宣言型自動化バンドルのジョブ定義ファイル
以下は、宣言型オートメーションバンドルで使用するジョブ定義ファイルの例です。ジョブは毎日実行されます。
- Declarative Automation Bundles
resources:
jobs:
veeva_vault_job:
name: veeva_vault_job
schedule:
quartz_cron_expression: '0 0 0 * * ?'
timezone_id: 'UTC'
tasks:
- task_key: veeva_vault_ingestion
pipeline_task:
pipeline_id: ${resources.pipelines.veeva_vault_pipeline.id}
一般的なパターン
高度なパイプライン構成については、「マネージド取り込みパイプラインの一般的なパターン」を参照してください。
次のステップ
パイプラインの開始、スケジュール、アラートを設定します。共通パイプラインメンテナンス タスクを参照してください。