メインコンテンツまでスキップ

Google アナリティクスの元データ取り込みパイプラインを作成する

この記事では、 Databricks Lakeflowコネクト と Google BigQueryを使用して Google アナリティクス 生 データ取り込み パイプラインを作成する方法について説明します。 パイプラインは、 Databricks UI または Databricks APIを使用して作成できます。

始める前に

インジェスト パイプラインを作成するには、次の要件を満たす必要があります。

  • ワークスペースでUnity Catalogが有効になっている必要があります。

  • サーバレス コンピュートは、ワークスペースで有効にする必要があります。 サーバレス コンピュートの要件を参照してください。

  • 新しい接続を作成する予定の場合: メタストアに対する CREATE CONNECTION 権限が必要です。

    コネクタが UI ベースのパイプラインオーサリングをサポートしている場合は、このページの手順を完了することで、接続とパイプラインを同時に作成できます。ただし、API ベースのパイプラインオーサリングを使用する場合は、このページの手順を完了する前に、Catalog Explorer で接続を作成する必要があります。「管理された取り込みソースに接続する」を参照してください

  • 既存の接続を使用する予定の場合: 接続オブジェクトに対する USE CONNECTION 権限または ALL PRIVILEGES が必要です。

  • ターゲット・カタログに対する USE CATALOG 権限が必要です。

  • 既存のスキーマに対する USE SCHEMA 権限と CREATE TABLE 権限、またはターゲット・カタログに対する CREATE SCHEMA 権限が必要です。

BigQuery を使用して GA4 から取り込むには、 Databricks 取り込み用に Google アナリティクス 4 と Google BigQuery を設定するをご覧ください。

ネットワークを構成する

サーバレス エグレス コントロールが有効になっている場合は、次の URL を許可リストに登録します。 それ以外の場合は、この手順をスキップします。サーバレス エグレス 制御のためのネットワークポリシーの管理を参照してください。

  • bigquery.googleapis.com
  • oauth2.googleapis.com
  • bigquerystorage.googleapis.com
  • googleapis.com

インジェスト パイプラインを作成する

必要な権限: 接続 USE CONNECTION または ALL PRIVILEGES

この手順では、インジェスト パイプラインを作成する方法について説明します。取り込まれた各テーブルは、同じ名前でストリーミングテーブルに書き込まれます。

  1. Databricksワークスペースのサイドバーで、 データ取り込み をクリックします。

  2. データの追加 ページの Databricks コネクタ で、 Google アナリティクス 4 をクリックします。

    インジェスト ウィザードが開きます。

  3. ウィザードの インジェスト パイプライン ページで、パイプラインの一意の名前を入力します。

  4. 宛先カタログ ドロップダウン メニューで、カタログを選択します。取り込まれたデータとイベント ログは、このカタログに書き込まれます。宛先スキーマは後で選択します。

  5. ソース データへのアクセスに必要な資格情報を格納する Unity Catalog 接続を選択します。

    ソースへの既存の接続がない場合は、[ 接続の作成 ] をクリックし、「 Databricks への取り込み用の Google アナリティクス 4 と Google BigQuery のセットアップ」で取得した認証の詳細を入力します。メタストアに対する CREATE CONNECTION 権限が必要です。

    Databricks UI では、GA4 接続の OAuth のみがサポートされます。ただし、 を使用して接続を作成することで、代わりに基本認証を使用できます Databricks APIs。 Google アナリティクスの生データをご覧ください。

  6. パイプラインの作成および続行 をクリックします。

  7. ソース ページで、Databricks に取り込むテーブルを選択し、 次へ をクリックします。

  8. 宛先 ページで、書き込む Unity Catalog カタログとスキーマを選択します。

    既存のスキーマを使用しない場合は、[ スキーマの作成 ] をクリックします。親カタログに対する USE CATALOG 権限と CREATE SCHEMA 権限が必要です。

  9. パイプラインを保存と続行 をクリックします。

  10. (オプション) 設定 ページで、 スケジュールの作成 をクリックします。宛先テーブルを更新する頻度を設定します。

  11. (オプション)パイプライン操作の成功または失敗のEメール 通知を設定します。

  12. パイプラインの保存と実行 をクリックします。

パイプラインのスケジュールと通知を更新する

パイプラインの詳細ページでパイプラインのスケジュールを作成できます。

  1. パイプラインが作成されたら、 Databricks ワークスペースに再度アクセスし、[ パイプライン ] をクリックします。

    新しいパイプラインがパイプライン リストに表示されます。

  2. パイプラインの詳細を表示するには、パイプライン名をクリックします。

  3. パイプラインの詳細ページで、 スケジュール をクリックしてパイプラインをスケジュールできます。

  4. パイプラインに通知を設定するには、[ 設定 ] をクリックし、通知を追加します。

パイプラインに追加するスケジュールごとに、 Lakeflowコネクト によってそのジョブが自動的に作成されます。 インジェスト パイプラインは、ジョブ内のタスクです。オプションで、ジョブにタスクを追加できます。

Additional リソース