メインコンテンツまでスキップ

Google アナリティクス 4 からデータを取り込む

LakeFlow Connectと Google BigQueryを使用して Google アナリティクス 4 データをDatabricksに取り込む方法を学びます。

要件

  • 取り込みパイプラインを作成するには、まず次の要件を満たす必要があります。

    • ワークスペースでUnity Catalogが有効になっている必要があります。

    • サーバレス コンピュートは、ワークスペースで有効にする必要があります。 サーバレス コンピュートの要件を参照してください。

    • 新しい接続を作成する場合:メタストアに対してCREATE CONNECTION権限が必要です。Unity Catalogの「権限の管理」を参照してください。

      コネクタが UI ベースのパイプライン オーサリングをサポートしている場合、管理者はこのページのステップを完了することで、接続とパイプラインを同時に作成できます。 ただし、パイプラインを作成するユーザーが API ベースのパイプライン オーサリングを使用している場合、または管理者以外のユーザーである場合、管理者はまずカタログ エクスプローラーで接続を作成する必要があります。 「管理対象取り込みソースへの接続」を参照してください。

    • 既存の接続を使用する予定の場合: 接続オブジェクトに対する USE CONNECTION 権限または ALL PRIVILEGES が必要です。

    • ターゲット・カタログに対する USE CATALOG 権限が必要です。

    • 既存のスキーマに対する USE SCHEMA 権限と CREATE TABLE 権限、またはターゲット・カタログに対する CREATE SCHEMA 権限が必要です。

  • BigQuery を使用して GA4 から取り込むには、Google アナリティクス 生データ接続を作成するをご覧ください。

ネットワークを構成する

サーバレス エグレス コントロールが有効になっている場合は、次の URL を許可リストに登録します。 それ以外の場合は、この手順をスキップします。サーバレス エグレス 制御のためのネットワークポリシーの管理を参照してください。

  • bigquery.googleapis.com
  • oauth2.googleapis.com
  • bigquerystorage.googleapis.com
  • googleapis.com

取り込みパイプラインを作成する

取り込まれた各テーブルはストリーミング テーブルに書き込まれます。

備考

ベータ版

取り込み中に行をフィルタリングすることで、パフォーマンスを向上させ、データの重複を減らすことができます。「取り込む行を選択する」を参照してください。

  1. Databricksワークスペースのサイドバーで、 データ取り込み をクリックします。

  2. データの追加 ページの Databricks コネクタ で、 Google アナリティクス 4 をクリックします。

  3. 取り込みウィザードの 接続 ページで、Google アナリティクス 4 のアクセス認証情報を保存する接続を選択します。CREATE CONNECTIONメタストアで の特権を保有している場合は、「Google プラスアイコン。 アナリティクス生データ接続の作成 」で認証の詳細を使用して、 [接続の作成] をクリックし、新しい接続を作成できます。

    Databricks UI は GA4 接続にのみ OAuth をサポートしています。ただし、Databricks APIsを使用して接続を作成すれば、代わりに基本認証を使用できます。「Google アナリティクスの生データ接続を作成する」を参照してください。

  4. 次へ をクリックします。

  5. インジェスチョン設定 ページで、パイプラインの一意の名前を入力します。

  6. イベント ログを書き込むカタログとスキーマを選択します。カタログに対してUSE CATALOGCREATE SCHEMA権限を持っている場合は、クリックできます。 プラスアイコン。 新しいスキーマを作成するには、ドロップダウン メニューでスキーマを作成します。

  7. パイプラインの作成および続行 をクリックします。

  8. [ソース] ページで、取り込むテーブルを選択します。

  9. 保存して続行 をクリックします。

  10. [宛先] ページで、データをロードするカタログとスキーマを選択します。カタログに対してUSE CATALOGCREATE SCHEMA権限を持っている場合は、クリックできます。 プラスアイコン。 新しいスキーマを作成するには、ドロップダウン メニューでスキーマを作成します。

  11. 保存して続行 をクリックします。

  12. (オプション) スケジュールと通知 ページで、 プラスアイコン。スケジュールを作成します 。宛先テーブルを更新する頻度を設定します。

  13. (オプション)クリック プラスアイコン。通知を追加して パイプライン操作の成功または失敗に関する電子メール通知を設定し、 [保存してパイプラインを実行] をクリックします。

これらの例を使用してパイプラインを構成します。

単一のソーステーブルを取り込む

次のパイプライン定義ファイルは、単一のソース テーブルを取り込みま す。

YAML
variables:
dest_catalog:
default: main
dest_schema:
default: ingest_destination_schema

# The main pipeline for ga4_dab
resources:
pipelines:
pipeline_ga4:
name: ga4_pipeline
catalog: ${var.dest_catalog}
schema: ${var.dest_schema}
ingestion_definition:
connection_name: <ga4-connection>
objects:
# An array of objects to ingest from GA4. This example ingests the events table from the analytics_XXXXXXXXX dataset.
- table:
source_schema: analytics_XXXXXXXXX
source_table: events
destination_catalog: ${var.dest_catalog}
destination_schema: ${var.dest_schema}

複数のソーステーブルを取り込む

次のパイプライン定義ファイルは、複数のソース テーブルを取り込みま す。

YAML
variables:
dest_catalog:
default: main
dest_schema:
default: ingest_destination_schema

# The main pipeline for ga4_dab
resources:
pipelines:
pipeline_ga4:
name: ga4_pipeline
catalog: ${var.dest_catalog}
schema: ${var.dest_schema}
ingestion_definition:
connection_name: <ga4-connection>
objects:
# An array of objects to ingest from GA4. This example ingests the events and events_intraday tables.
- table:
source_schema: analytics_XXXXXXXXX
source_table: events
destination_catalog: ${var.dest_catalog}
destination_schema: ${var.dest_schema}
- table:
source_schema: analytics_XXXXXXXXX
source_table: events_intraday
destination_catalog: ${var.dest_catalog}
destination_schema: ${var.dest_schema}

宣言型自動化バンドルのジョブ定義ファイル

以下は、宣言型自動化バンドルで使用するジョブ定義ファイルの例です。ジョブは毎日、最後の実行からちょうど 1 日後に実行されます。

YAML
resources:
jobs:
ga4_dab_job:
name: ga4_dab_job

trigger:
periodic:
interval: 1
unit: DAYS

email_notifications:
on_failure:
- <email-address>

tasks:
- task_key: refresh_pipeline
pipeline_task:
pipeline_id: ${resources.pipelines.pipeline_ga4.id}

一般的なパターン

高度なパイプライン構成については、 「管理された取り込みパイプラインの一般的なパターン」を参照してください。

次のステップ

パイプラインを開始、スケジュールし、アラートを設定します。一般的なパイプラインメンテナンスタスクを参照してください。

その他のリソース