Veeva Vault からデータを取り込む

備考

ベータ版

この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。Databricksのプレビューを管理するを参照してください。

このページでは、Lakeflow Connectを使用してマネージド Veeva Vault インジェストパイプラインを作成する方法を示します。

要件

取り込みパイプラインを作成するには、まず次の要件を満たす必要があります。
- ワークスペースでUnity Catalogが有効になっている必要があります。
- ワークスペースでサーバレスコンピュートを有効にする必要があります。サーバレスコンピュートの要件を参照してください。
- 新しい接続を作成するには、メタストアに対する CREATE CONNECTION 特権が必要です。Unity Catalogでの特権の管理を参照してください。
  
  コネクタが UI ベースのパイプラインオーサリングをサポートしている場合、管理者はこのページのステップを完了することで、接続とパイプラインを同時に作成できます。ただし、パイプラインを作成するユーザーが API ベースのパイプラインオーサリングを使用している場合、または管理者以外のユーザーである場合、管理者はまずカタログエクスプローラーで接続を作成する必要があります。「管理対象取り込みソースへの接続」を参照してください。
- 既存の接続を使用するには、接続オブジェクトに対するUSE CONNECTION権限またはALL PRIVILEGESが必要です。
- ターゲットカタログに対するUSE CATALOG権限が必要です。
- 既存のスキーマに対するUSE SCHEMAおよびCREATE TABLE特権、またはターゲットカタログに対するCREATE SCHEMA特権を所有している必要があります。
Veeva Vaultから取り込むには、まずDatabricksから認証を設定し、接続を作成します。OAuth 2.0 M2M認証のためにVeeva Vaultを設定およびVeeva Vault接続を作成を参照してください。

取り込みパイプラインを作成

Databricks UI
Declarative Automation Bundles
Databricks notebook

Databricksワークスペースのサイドバーで、 データ取り込み をクリックします。
データの追加 ページの Databricks コネクタ で、 Veeva Vault をクリックします。
取り込みウィザードの 接続ページで、Veeva Vault 認証情報を保存する接続を選択します。 CREATE CONNECTIONメタストアに対する特権をお持ちの場合は、 接続の作成 をクリックして、 OAuth 2.0 M2M 認証用に Veeva Vault を構成するからの認証情報で接続を作成します。
次へをクリックします。
インジェストセットアップ ページで、パイプラインの名前を入力します。
イベントログの書き込み先となるカタログとスキーマを選択してください。カタログに対する USE CATALOG および CREATE SCHEMA 権限がある場合は、ドロップダウンメニューの スキーマを作成 をクリックしてスキーマを作成します。
パイプラインの作成および続行 をクリックします。
ソース ページで、取り込むオブジェクトを選択します。
保存して続行 をクリックします。
宛先ページで、データを読み込むカタログとスキーマを選択します。カタログに対する USE CATALOG および CREATE SCHEMA 権限がある場合は、ドロップダウンメニューの スキーマの作成 をクリックして、スキーマを作成します。
保存して続行 をクリックします。
（オプション） [スケジュールと通知] ページで、 [スケジュールの作成] をクリックします。宛先テーブルを更新する頻度を設定します。

注記

Veeva は 15 分ごとにインクリメンタルアーカイブを生成します。15分ごとに実行するよりも頻繁にパイプラインをスケジュールしても、追加のデータは生成されません。

(オプション) 通知を追加 をクリックしてパイプライン操作の成功または失敗に対するEメール通知を設定し、次に パイプラインを保存して実行 をクリックします。

宣言型オートメーションバンドルを使用して、Veeva Vault パイプラインをコードとして管理します。バンドルにはジョブとタスクの YAML 定義を含めることができ、Databricks CLI を使用して管理され、異なるターゲットワークスペース（開発、ステージング、本番運用など）で共有および実行できます。詳細情報については、「宣言型オートメーションバンドルとは」を参照してください。

Databricks CLI を使用してバンドルを作成します。
Bash
```
databricks bundle init
```
バンドルに2つの新しいリソースファイルを追加します。
- パイプライン定義ファイル（例えば、resources/veeva_vault_pipeline.yml）。「パイプライン.ingestion_definition」を参照してください。と例。
- データ取り込みの頻度を制御するジョブ定義ファイル（例：resources/veeva_vault_job.yml）。
Databricks CLIを使用してパイプラインをデプロイする：
Bash
```
databricks bundle deploy
```

例

Veeva Vault オブジェクトは、default ソーススキーマの下で公開されます。個々のオブジェクトまたはスキーマ全体を取り込みます。

特定のオブジェクトを取り込む

このオプションを使用して、オブジェクトの特定のサブセットを取り込むか、オブジェクトごとに宛先名をカスタマイズします。

Declarative Automation Bundles
Databricks notebook

次のパイプライン定義ファイルは、個々の Veeva Vault オブジェクトを取り込みます。

YAML
resources:
  pipelines:
    veeva_vault_pipeline:
      name: veeva_vault_pipeline
      catalog: 'main'
      target: 'veeva_data'
      ingestion_definition:
        connection_name: veeva_vault_connection
        objects:
          - table:
              source_schema: 'default'
              source_table: 'opportunity__v'
              destination_catalog: 'main'
              destination_schema: 'veeva_data'
              destination_table: 'opportunity'
          - table:
              source_schema: 'default'
              source_table: 'account__v'
              destination_catalog: 'main'
              destination_schema: 'veeva_data'
              destination_table: 'account'

以下のパイプライン仕様により、個別の Veeva Vault オブジェクトを取り込みます：

Python
pipeline_name = "veeva_vault_pipeline"
connection_name = "<veeva-vault-connection>"
pipeline_spec = {
  "name": pipeline_name,
  "ingestion_definition": {
    "connection_name": connection_name,
    "objects": [
      {
        "table": {
          "source_schema": "default",
          "source_table": "opportunity__v",
          "destination_catalog": "main",
          "destination_schema": "veeva_data",
          "destination_table": "opportunity"
        }
      },
      {
        "table": {
          "source_schema": "default",
          "source_table": "account__v",
          "destination_catalog": "main",
          "destination_schema": "veeva_data",
          "destination_table": "account"
        }
      }
    ]
  }
}
json_payload = json.dumps(pipeline_spec, indent=2)
create_pipeline(json_payload)

すべてのオブジェクトを取り込みます。

このオプションを使用すると、単一の宣言で、すべてのVeeva Vaultオブジェクトを単一の宛先スキーマにイングレスできます。

Declarative Automation Bundles
Databricks notebook

次のパイプライン定義ファイルは、サポートされているすべてのVeeva Vaultオブジェクトを宛先スキーマに取り込みます。

YAML
resources:
  pipelines:
    veeva_vault_pipeline:
      name: veeva_vault_pipeline
      catalog: 'main'
      target: 'veeva_data'
      ingestion_definition:
        connection_name: veeva_vault_connection
        objects:
          - schema:
              source_schema: 'default'
              destination_catalog: 'main'
              destination_schema: 'veeva_data'

以下のパイプライン仕様は、サポートされているすべての Veeva Vault オブジェクトを宛先スキーマに取り込みます。

Python
pipeline_name = "veeva_vault_pipeline"
connection_name = "<veeva-vault-connection>"
pipeline_spec = {
  "name": pipeline_name,
  "ingestion_definition": {
    "connection_name": connection_name,
    "objects": [
      {
        "schema": {
          "source_schema": "default",
          "destination_catalog": "main",
          "destination_schema": "veeva_data"
        }
      }
    ]
  }
}
json_payload = json.dumps(pipeline_spec, indent=2)
create_pipeline(json_payload)

宣言型自動化バンドルのジョブ定義ファイル

以下は、宣言型オートメーションバンドルで使用するジョブ定義ファイルの例です。ジョブは毎日実行されます。

Declarative Automation Bundles

YAML
resources:
  jobs:
    veeva_vault_job:
      name: veeva_vault_job
      schedule:
        quartz_cron_expression: '0 0 0 * * ?'
        timezone_id: 'UTC'
      tasks:
        - task_key: veeva_vault_ingestion
          pipeline_task:
            pipeline_id: ${resources.pipelines.veeva_vault_pipeline.id}

一般的なパターン

高度なパイプライン構成については、「マネージド取り込みパイプラインの一般的なパターン」を参照してください。

次のステップ

パイプラインの開始、スケジュール、アラートを設定します。共通パイプラインメンテナンスタスクを参照してください。

Veeva Vault からデータを取り込む

要件

取り込みパイプラインを作成

Veeva Vault取り込みパイプラインを作成

例

特定のオブジェクトを取り込む

すべてのオブジェクトを取り込みます。

宣言型自動化バンドルのジョブ定義ファイル

一般的なパターン

次のステップ

その他のリソース

要件​

取り込みパイプラインを作成​

Veeva Vault取り込みパイプラインを作成

例​

特定のオブジェクトを取り込む​

すべてのオブジェクトを取り込みます。​

宣言型自動化バンドルのジョブ定義ファイル​

一般的なパターン​

次のステップ​

その他のリソース​

要件

取り込みパイプラインを作成

例

特定のオブジェクトを取り込む

すべてのオブジェクトを取り込みます。

宣言型自動化バンドルのジョブ定義ファイル

一般的なパターン

次のステップ

その他のリソース