メインコンテンツまでスキップ

Google アナリティクスの元データ取り込みパイプラインを作成する

備考

プレビュー

Google アナリティクス 生データ コネクタは パブリック プレビュー段階です。

この記事では、 Databricks LakeFlow Connect と Google BigQueryを使用して Google アナリティクス 生 データ取り込み パイプラインを作成する方法について説明します。 パイプラインは、 Databricks UI または Databricks APIを使用して作成できます。

始める前に

インジェスト パイプラインを作成するには、次の要件を満たす必要があります。

  • ワークスペースが Unity Catalog に対して有効になっています。
  • サーバレス コンピュートがワークスペースで有効になっています。 サーバレス コンピュートの有効化を参照してください。
  • 接続を作成する予定の場合: メタストアに対する CREATE CONNECTION 権限があります。
  • 既存の接続を使用する予定の場合: 接続オブジェクトに対する USE CONNECTION 権限または ALL PRIVILEGES があります。
  • ターゲット・カタログに対する USE CATALOG 権限があります。
  • 既存のスキーマに対する USE SCHEMA 権限と CREATE TABLE 権限、またはターゲット カタログに対する CREATE SCHEMA 権限を持っている。

BigQuery を使用して GA4 から取り込むには、 Databricks 取り込み用に Google アナリティクス 4 と Google BigQuery を設定するをご覧ください。

ネットワークを構成する

サーバレス エグレス コントロールが有効になっている場合は、次の URL を許可リストに登録します。 それ以外の場合は、この手順をスキップします。サーバレス エグレス 制御のネットワーク ポリシーの管理を参照してください。

  • bigquery.googleapis.com
  • oauth2.googleapis.com
  • bigquerystorage.googleapis.com
  • googleapis.com

インジェスト パイプラインを作成する

必要な権限: 接続 USE CONNECTION または ALL PRIVILEGES

この手順では、インジェスト パイプラインを作成する方法について説明します。取り込まれた各テーブルは、同じ名前でストリーミングテーブルに書き込まれます。

  1. Databricksワークスペースのサイドバーで、 データ取り込み をクリックします。

  2. データの追加 ページの Databricks コネクタ で、 Google アナリティクス 4 をクリックします。

    インジェスト ウィザードが開きます。

  3. ウィザードの インジェスト パイプライン ページで、パイプラインの一意の名前を入力します。

  4. [宛先カタログ ] ドロップダウン メニューで、カタログを選択します。取り込まれたデータとイベント ログは、このカタログに書き込まれます。宛先スキーマは後で選択します。

  5. ソース データへのアクセスに必要な資格情報を格納する Unity Catalog 接続を選択します。

    ソースへの既存の接続がない場合は、[ 接続の作成 ] をクリックし、「 Databricks インジェスト用の Google アナリティクス 4 と Google BigQuery のセットアップ」で取得した認証の詳細を入力します。メタストアに対する CREATE CONNECTION 権限が必要です。

  6. パイプラインの作成および続行 をクリックします。

  7. ソース ページで、Databricks に取り込むテーブルを選択し、 次へ をクリックします。

  8. 宛先 ページで、書き込む Unity Catalog カタログとスキーマを選択します。

    既存のスキーマを使用しない場合は、[ スキーマの作成 ] をクリックします。親カタログに対する USE CATALOG 権限と CREATE SCHEMA 権限が必要です。

  9. パイプラインを保存と続行 をクリックします。

  10. (オプション) 設定 ページで、 スケジュールの作成 をクリックします。宛先テーブルを更新する頻度を設定します。

  11. (オプション)パイプライン操作の成功または失敗のEメール 通知を設定します。

  12. パイプラインの保存と実行 をクリックします。

パイプラインのスケジュールと通知を更新する

パイプラインの詳細ページでパイプラインのスケジュールを作成できます。

  1. パイプラインが作成されたら、 Databricks ワークスペースに再度アクセスし、[ パイプライン ] をクリックします。

    新しいパイプラインがパイプライン リストに表示されます。

  2. パイプラインの詳細を表示するには、パイプライン名をクリックします。

  3. パイプラインの詳細ページで、 スケジュール をクリックしてパイプラインをスケジュールできます。

  4. パイプラインに通知を設定するには、[ 設定 ] をクリックし、通知を追加します。

パイプラインに追加するスケジュールごとに、 LakeFlow Connect によってそのジョブが自動的に作成されます。 インジェスト パイプラインは、ジョブ内のタスクです。オプションで、ジョブにタスクを追加できます。