Google アナリティクスの元データ取り込みパイプラインを作成する
プレビュー
Google アナリティクス 生データ コネクタは パブリック プレビュー段階です。
この記事では、 Databricks LakeFlow Connect と Google BigQueryを使用して Google アナリティクス 生 データ取り込み パイプラインを作成する方法について説明します。 パイプラインは、 Databricks UI または Databricks APIを使用して作成できます。
始める前に
インジェスト パイプラインを作成するには、次の要件を満たす必要があります。
- ワークスペースが Unity Catalog に対して有効になっています。
- サーバレス コンピュートがワークスペースで有効になっています。 サーバレス コンピュートの有効化を参照してください。
- 接続を作成する予定の場合: メタストアに対する
CREATE CONNECTION
権限があります。 - 既存の接続を使用する予定の場合: 接続オブジェクトに対する
USE CONNECTION
権限またはALL PRIVILEGES
があります。 - ターゲット・カタログに対する
USE CATALOG
権限があります。 - 既存のスキーマに対する
USE SCHEMA
権限とCREATE TABLE
権限、またはターゲット カタログに対するCREATE SCHEMA
権限を持っている。
BigQuery を使用して GA4 から取り込むには、 Databricks 取り込み用に Google アナリティクス 4 と Google BigQuery を設定するをご覧ください。
ネットワークを構成する
サーバレス エグレス コントロールが有効になっている場合は、次の URL を許可リストに登録します。 それ以外の場合は、この手順をスキップします。サーバレス エグレス 制御のネットワーク ポリシーの管理を参照してください。
bigquery.googleapis.com
oauth2.googleapis.com
bigquerystorage.googleapis.com
googleapis.com
インジェスト パイプラインを作成する
必要な権限: 接続 USE CONNECTION
または ALL PRIVILEGES
。
この手順では、インジェスト パイプラインを作成する方法について説明します。取り込まれた各テーブルは、同じ名前でストリーミングテーブルに書き込まれます。
- Databricks UI
- Databricks notebook
- Databricks CLI
-
Databricksワークスペースのサイドバーで、 データ取り込み をクリックします。
-
データの追加 ページの Databricks コネクタ で、 Google アナリティクス 4 をクリックします。
インジェスト ウィザードが開きます。
-
ウィザードの インジェスト パイプライン ページで、パイプラインの一意の名前を入力します。
-
[宛先カタログ ] ドロップダウン メニューで、カタログを選択します。取り込まれたデータとイベント ログは、このカタログに書き込まれます。宛先スキーマは後で選択します。
-
ソース データへのアクセスに必要な資格情報を格納する Unity Catalog 接続を選択します。
ソースへの既存の接続がない場合は、[ 接続の作成 ] をクリックし、「 Databricks インジェスト用の Google アナリティクス 4 と Google BigQuery のセットアップ」で取得した認証の詳細を入力します。メタストアに対する
CREATE CONNECTION
権限が必要です。 -
パイプラインの作成および続行 をクリックします。
-
ソース ページで、Databricks に取り込むテーブルを選択し、 次へ をクリックします。
-
宛先 ページで、書き込む Unity Catalog カタログとスキーマを選択します。
既存のスキーマを使用しない場合は、[ スキーマの作成 ] をクリックします。親カタログに対する
USE CATALOG
権限とCREATE SCHEMA
権限が必要です。 -
パイプラインを保存と続行 をクリックします。
-
(オプション) 設定 ページで、 スケジュールの作成 をクリックします。宛先テーブルを更新する頻度を設定します。
-
(オプション)パイプライン操作の成功または失敗のEメール 通知を設定します。
-
パイプラインの保存と実行 をクリックします。
-
個人用アクセス トークンを生成し、そのトークンをコピーして、後でノートブックに貼り付けることができます。ワークスペース ユーザーの Databricks 個人用アクセス トークンを参照してください。
-
次のノートブックをワークスペースにインポートします。
Google アナリティクスの元データ取り込みパイプラインを作成する
-
ノートブックで次の値を変更します。
セル 1:
api_token
: 生成したパーソナル アクセス トークン
セル 3:
name
: パイプラインの名前connection_name
: カタログエクスプローラ で作成した Unity Catalog 接続の名前 ( Catalog > External data > Connections )。ソースへの既存の接続がない場合は、作成できます。メタストアに対するCREATE CONNECTION
特権が必要です。source_catalog
: Google Cloud Platform (GCP) プロジェクト ID。ソースカタログが指定されていない場合、コネクタは、取り込むGCPプロジェクトがサービスアカウントに記載されているものと想定します。source_schema
: Google アナリティクス プロパティ名 (形式)analytics_XXXXXXXX
source_table
: ソース テーブルの名前:events
、events_intraday
、users
、またはpseudonymous_users
destination_catalog
: 取り込まれたデータが含まれる宛先カタログの名前destination_schema
: 取り込まれたデータを含む宛先スキーマの名前scd_type
: 使用する SCD メソッド:SCD_TYPE_1
またはSCD_TYPE_2
。「履歴追跡」を参照してください。
-
「 すべて実行 」をクリックします。
パイプラインを作成するには:
databricks pipelines create --json "<pipeline definition or json file path>"
パイプラインを編集するには:
databricks pipelines update --json "<pipeline definition or json file path>"
パイプライン定義を取得するには:
databricks pipelines get "<pipeline-id>"
パイプラインを削除するには:
databricks pipelines delete "<pipeline-id>"
詳細については、以下を実行してください:
databricks pipelines --help
databricks pipelines <create|update|get|delete|...> --help
パイプラインのスケジュールと通知を更新する
パイプラインの詳細ページでパイプラインのスケジュールを作成できます。
-
パイプラインが作成されたら、 Databricks ワークスペースに再度アクセスし、[ パイプライン ] をクリックします。
新しいパイプラインがパイプライン リストに表示されます。
-
パイプラインの詳細を表示するには、パイプライン名をクリックします。
-
パイプラインの詳細ページで、 スケジュール をクリックしてパイプラインをスケジュールできます。
-
パイプラインに通知を設定するには、[ 設定 ] をクリックし、通知を追加します。
パイプラインに追加するスケジュールごとに、 LakeFlow Connect によってそのジョブが自動的に作成されます。 インジェスト パイプラインは、ジョブ内のタスクです。オプションで、ジョブにタスクを追加できます。