Google アナリティクスの元データ取り込みパイプラインを作成する

この記事では、 Databricks Lakeflowコネクトと Google BigQueryを使用して Google アナリティクス生データ取り込みパイプラインを作成する方法について説明します。パイプラインは、 Databricks UI または Databricks APIを使用して作成できます。

始める前に

インジェストパイプラインを作成するには、次の要件を満たす必要があります。

ワークスペースでUnity Catalogが有効になっている必要があります。
サーバレスコンピュートは、ワークスペースで有効にする必要があります。サーバレスコンピュートの要件を参照してください。
新しい接続を作成する予定の場合: メタストアに対する CREATE CONNECTION 権限が必要です。

コネクタが UI ベースのパイプラインオーサリングをサポートしている場合、管理者はこのページのステップを完了することで、接続とパイプラインを同時に作成できます。ただし、パイプラインを作成するユーザーが API ベースのパイプラインオーサリングを使用している場合、または管理者以外のユーザーである場合、管理者はまずカタログエクスプローラーで接続を作成する必要があります。「管理対象取り込みソースへの接続」を参照してください。
既存の接続を使用する予定の場合: 接続オブジェクトに対する USE CONNECTION 権限または ALL PRIVILEGES が必要です。
ターゲット・カタログに対する USE CATALOG 権限が必要です。
既存のスキーマに対する USE SCHEMA 権限と CREATE TABLE 権限、またはターゲット・カタログに対する CREATE SCHEMA 権限が必要です。

BigQuery を使用して GA4 から取り込むには、 Databricks 取り込み用に Google アナリティクス 4 と Google BigQuery を設定するをご覧ください。

ネットワークを構成する

サーバレスエグレスコントロールが有効になっている場合は、次の URL を許可リストに登録します。それ以外の場合は、この手順をスキップします。サーバレスエグレス制御のためのネットワークポリシーの管理を参照してください。

bigquery.googleapis.com
oauth2.googleapis.com
bigquerystorage.googleapis.com
googleapis.com

インジェストパイプラインを作成する

必要な権限: 接続 USE CONNECTION または ALL PRIVILEGES 。

この手順では、インジェストパイプラインを作成する方法について説明します。取り込まれた各テーブルは、同じ名前でストリーミングテーブルに書き込まれます。

Databricks UI
Databricks notebook
Databricks CLI

Databricksワークスペースのサイドバーで、 データ取り込み をクリックします。
データの追加 ページの Databricks コネクタ で、 Google アナリティクス 4 をクリックします。

インジェストウィザードが開きます。
ウィザードの インジェストパイプライン ページで、パイプラインの一意の名前を入力します。
宛先カタログ ドロップダウンメニューで、カタログを選択します。取り込まれたデータとイベントログは、このカタログに書き込まれます。宛先スキーマは後で選択します。
ソースデータへのアクセスに必要な資格情報を格納する Unity Catalog 接続を選択します。

ソースへの既存の接続がない場合は、[ 接続の作成 ] をクリックし、「 Databricks への取り込み用の Google アナリティクス 4 と Google BigQuery のセットアップ」で取得した認証の詳細を入力します。メタストアに対する CREATE CONNECTION 権限が必要です。

Databricks UI では、GA4 接続の OAuth のみがサポートされます。ただし、を使用して接続を作成することで、代わりに基本認証を使用できます Databricks APIs。 Google アナリティクスの生データをご覧ください。
パイプラインの作成および続行 をクリックします。
ソース ページで、Databricks に取り込むテーブルを選択し、次へをクリックします。
宛先ページで、書き込む Unity Catalog カタログとスキーマを選択します。

既存のスキーマを使用しない場合は、[ スキーマの作成 ] をクリックします。親カタログに対する USE CATALOG 権限と CREATE SCHEMA 権限が必要です。
パイプラインを保存と続行 をクリックします。
(オプション) 設定ページで、 スケジュールの作成 をクリックします。宛先テーブルを更新する頻度を設定します。
(オプション)パイプライン操作の成功または失敗のEメール通知を設定します。
パイプラインの保存と実行 をクリックします。

個人的なアクセス内部を生成し、後でノートブックに貼り付けることができるように、そのトークンをコピーします。「ワークスペースユーザー向けの個人アクセスアカウントの作成」を参照してください。
次のノートブックをワークスペースにインポートします。

Google アナリティクスの元データ取り込みパイプラインを作成する

Open notebook in new tab

ノートブックで次の値を変更します。

セル 1:
- api_token: 生成したパーソナルアクセストークン
セル 3:
- name: パイプラインの名前
- connection_name: カタログエクスプローラで作成した Unity Catalog 接続の名前 ( Catalog > External data > Connections )。ソースへの既存の接続がない場合は、作成できます。メタストアに対する CREATE CONNECTION 特権が必要です。
- source_catalog: Google Cloud Platform (GCP) プロジェクト ID。ソースカタログが指定されていない場合、コネクタは、取り込むGCPプロジェクトがサービスアカウントに記載されているものと想定します。
- source_schema: Google アナリティクスプロパティ名 (形式) analytics_XXXXXXXX
- source_table: ソーステーブルの名前: events、 events_intraday、 users、または pseudonymous_users
- destination_catalog: 取り込まれたデータが含まれる宛先カタログの名前
- destination_schema: 取り込まれたデータを含む宛先スキーマの名前
- scd_type: 使用するSCDメソッド: SCD_TYPE_1 または SCD_TYPE_2。ヒストリー・トラッキングの有効化 (SCD タイプ 2)を参照してください。
「 すべて実行 」をクリックします。

パイプラインを作成するには:

SQL
databricks pipelines create --json "<pipeline definition or json file path>"

パイプラインを編集するには:

SQL
databricks pipelines update --json "<pipeline definition or json file path>"

パイプライン定義を取得するには:

SQL
databricks pipelines get "<pipeline-id>"

パイプラインを削除するには:

SQL
databricks pipelines delete "<pipeline-id>"

詳細については、以下を実行してください:

SQL
databricks pipelines --help
databricks pipelines <create|update|get|delete|...> --help

パイプラインのスケジュールと通知を更新する

パイプラインの詳細ページでパイプラインのスケジュールを作成できます。

パイプラインが作成されたら、 Databricks ワークスペースに再度アクセスし、[ パイプライン ] をクリックします。

新しいパイプラインがパイプラインリストに表示されます。
パイプラインの詳細を表示するには、パイプライン名をクリックします。
パイプラインの詳細ページで、 スケジュール をクリックしてパイプラインをスケジュールできます。
パイプラインに通知を設定するには、[ 設定 ] をクリックし、通知を追加します。

パイプラインに追加するスケジュールごとに、 Lakeflowコネクトによってそのジョブが自動的に作成されます。インジェストパイプラインは、ジョブ内のタスクです。オプションで、ジョブにタスクを追加できます。

始める前に​

ネットワークを構成する​

インジェスト パイプラインを作成する​

Google アナリティクスの元データ取り込みパイプラインを作成する

パイプラインのスケジュールと通知を更新する​

Additional リソース​

始める前に

ネットワークを構成する

インジェストパイプラインを作成する

パイプラインのスケジュールと通知を更新する

Additional リソース