Google 広告取り込みパイプラインを作成する
ベータ版
この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。「Databricks プレビューの管理」を参照してください。
Google 広告から Databricks にデータを取り込むためのマネージド取り込みパイプラインを作成する方法を学びます。
要件
取り込み パイプラインを作成するには、次の要件を満たす必要があります。
-
ワークスペースでUnity Catalogが有効になっている必要があります。
-
ワークスペースでサーバレスコンピュートを有効にする必要があります。 「サーバレス コンピュート要件」を参照してください。
-
新しい接続を作成する場合: メタストアに対する
CREATE CONNECTION権限が必要です。コネクタが UI ベースのパイプライン オーサリングをサポートしている場合、管理者はこのページのステップを完了することで、接続とパイプラインを同時に作成できます。 ただし、パイプラインを作成するユーザーが API ベースのパイプライン オーサリングを使用している場合、または管理者以外のユーザーである場合、管理者はまずカタログ エクスプローラーで接続を作成する必要があります。 「管理対象取り込みソースへの接続」を参照してください。
-
既存の接続を使用する場合: 接続オブジェクトに対する
USE CONNECTION権限またはALL PRIVILEGESが必要です。 -
ターゲット カタログに対する
USE CATALOG権限が必要です。 -
既存のスキーマに対する
USE SCHEMAおよびCREATE TABLE権限、またはターゲット カタログに対するCREATE SCHEMA権限が必要です。
Google 広告から取り込むには、 「Google 広告取り込み用にOAuthを構成する」のステップを完了する必要があります。
取り込みパイプラインを作成する
- Databricks Asset Bundles
- Databricks notebook
このタブでは、Databricks アセット バンドルを使用してインジェスト パイプラインをデプロイする方法について説明します。バンドルにはジョブとタスクの YAML 定義を含めることができ、 Databricks CLIを使用して管理でき、さまざまなターゲット ワークスペース (開発、ステージング、本番運用など) で共有して実行できます。 詳細については、 Databricksアセット バンドルとは何ですか?」を参照してください。 。
-
Databricks CLI を使用して新しいバンドルを作成します。
Bashdatabricks bundle init -
バンドルに 2 つの新しいリソース ファイルを追加します。
- パイプライン定義ファイル (
resources/google_ads_pipeline.yml)。 - データ取り込みの頻度を制御するワークフロー ファイル (
resources/google_ads_job.yml)。
変更する値とパイプライン定義テンプレートを参照してください。
- パイプライン定義ファイル (
-
Databricks CLI を使用してパイプラインをデプロイします。
Bashdatabricks bundle deploy
- 次のノートブックを Databricks ワークスペースにインポートします。
-
セル 1 はそのままにしておきます。
-
ユースケースに応じて、パイプライン構成の詳細を使用してセル 2 または 3 を変更します。変更する値を参照してください。
-
「 すべて実行 」をクリックします。
変更する値
Value | 説明 |
|---|---|
| パイプラインの一意の名前。 |
| Google 広告の認証詳細を保存するUnity Catalog接続の名前。 |
| 取り込むデータが含まれているアカウントの名前。パイプライン仕様にアカウント ID を入力するときはハイフンを含めないでください。 |
| 取り込むテーブルの名前。 |
| Databricks に書き込むカタログの名前。 |
| Databricks に書き込むスキーマの名前。 |
| オプション。Databricks に書き込むテーブルの一意の名前。これを指定しない場合、コネクタは自動的にソーステーブル名を使用します。 |
| 1 つのパイプラインは、最大 1 つの Google 広告マネージャー アカウント ID にマッピングされます。マネージャー アカウント ID が複数の顧客アカウント ID にマッピングされている場合は、同じパイプライン内でそれらの異なる顧客アカウント ID から取り込むことができます。パイプライン仕様にアカウント ID を入力するときはハイフンを含めないでください。 |
| オプション (デフォルト: 30 日)。これにより、遅いコンバージョンとアトリビューションの更新をキャプチャするために、各パイプラインの更新中に再チェックする過去の日数が決まります。この値を設定するときは、組織のコンバージョン アトリビューション ウィンドウを考慮してください。 |
| オプション (デフォルト: 2 年)。これは、レポート テーブルの初期同期開始日を |
パイプライン定義テンプレート
- YAML
- JSON
このタブには、Databricks アセット バンドルで使用するためのテンプレートが用意されています。
以下は、1 つのアカウントから現在のテーブルと将来のテーブルをすべて取り込むresources/google_ads_pipeline.ymlファイルの例です。
resources:
pipelines:
pipeline_google_ads:
name: <pipeline>
catalog: <destination-catalog>
target: <destination-schema>
ingestion_definition:
connection_name: <connection>
objects:
- schema:
source_schema: <account-id>
destination_catalog: <destination-catalog>
destination_schema: <destination-schema>
google_ads_options:
manager_account_id: <manager-account-id>
lookback_window_days: <lookback-window-days>
sync_start_date: <sync-start-date>
以下は、アカウントから特定のテーブルを選択して取り込むresources/google_ads_pipeline.ymlファイルの例です。
resources:
pipelines:
pipeline_google_ads:
name: <pipeline-name>
catalog: <destination-catalog>
target: <destination-schema>
ingestion_definition:
connection_name: <connection-name>
objects:
- table:
source_schema: <customer-account-id>
source_table: <table1>
destination_catalog: <destination-catalog>
destination_schema: <destination-schema>
destination_table: <destination-table>
google_ads_options:
manager_account_id: <manager-account-id>
lookback_window_days: <lookback-window-days>
sync_start_date: <sync-start-date>
- table:
source_schema: <customer-account-id>
source_table: table2
destination_catalog: <destination-catalog>
destination_schema: <destination-schema>
destination_table: <destination-table>
google_ads_options:
manager_account_id: <manager-account-id>
lookback_window_days: <lookback-window-days>
sync_start_date: <sync-start-date>
以下はresources/google_ads_job.ymlファイルの例です。
resources:
jobs:
google_ads_dab_job:
name: google_ads_dab_job
trigger:
# Run this job every day, exactly one day from the last run
# See https://docs.databricks.com/api/workspace/jobs/create#trigger
periodic:
interval: 1
unit: DAYS
email_notifications:
on_failure:
- <email-address>
tasks:
- task_key: refresh_pipeline
pipeline_task:
pipeline_id: <pipeline-id>
このタブには、Databricks ノートブックで使用するためのパイプライン定義テンプレートが用意されています。
次の例では、1 つのアカウントから現在のテーブルと将来のテーブルをすべて取り込みます。
pipeline_spec = {
"name": <pipeline>,
"ingestion_definition": {
"connection_name": <connection>,
"objects": [
{
"schema": {
"source_schema": "<account-id>",
"destination_catalog": "<destination-catalog>",
"destination_schema": "<destination-schema>",
"google_ads_options": {
"manager_account_id": "<manager-account-id>",
"lookback_window_days": <lookback-window-days>,
"sync_start_date": "<sync-start-date>"
}
}
}
]
}
}
json_payload = json.dumps(pipeline_spec, indent=2)
create_pipeline(json_payload)
次の例では、アカウントから特定のテーブルを選択して取り込みます。
pipeline_spec = {
"name": <pipeline>,
"ingestion_definition": {
"connection_name": <connection>,
"objects": [
{
"table": {
"source_schema": "<customer-account-id>",
"source_table": "<table1>",
"destination_catalog": "<destination-catalog>",
"destination_schema": "<destination-schema>",
"destination_table": "<destination-table>",
"google_ads_options": {
"manager_account_id": "<manager-account-id>",
"lookback_window_days": <lookback-window-days>,
"sync_start_date": "<sync-start-date>"
}
}
},
{
"table": {
"source_schema": "<customer-account-id>",
"source_table": "table2",
"destination_catalog": "<destination-catalog>",
"destination_schema": "<destination-schema>",
"destination_table": "<destination-table>",
"google_ads_options": {
"manager_account_id": "<manager-account-id>",
"lookback_window_days": <lookback-window-days>,
"sync_start_date": "<sync-start-date>"
}
}
}
]
}
}
json_payload = json.dumps(pipeline_spec, indent=2)
create_pipeline(json_payload)
一般的なパターン
高度なパイプライン構成については、 「管理された取り込みパイプラインの一般的なパターン」を参照してください。