Google analítica dados brutos connector concepts

O conector de dados brutos do Google analítica permite que o senhor ingira dados brutos em nível de evento do Google analítica 4 (GA4) usando Databricks LakeFlow Connect e Google BigQuery.

Como funciona a ingestão de GA4?

Primeiro, o senhor deve exportar seus dados do GA4 para o BigQuery usando as APIs ou UIs fornecidas pelo Google. Em seguida, a Databricks consome os dados do BigQuery usando as seguintes APIs:

A API do BigQuery para operações de metadados (por exemplo, para listar tabelas e esquemas)
A API de armazenamento do BigQuery para ingestão de dados
O Cloud Recurso Manager API para exploração de esquemas

Modelo de dados do conector

O conector GA4 pode ingerir as seguintes tabelas de uma determinada propriedade do GA4:

events
events_intraday
users
pseudonymous_users

Para cada dia em que os dados chegam ao GA4, uma tabela particionada por data é criada automaticamente no BigQuery. O nome da tabela do BigQuery tem o formato <table_name>_YYYYMMDD (por exemplo, events_20241024).

Durante cada atualização do LakeFlow Connect pipeline , o conector ingere automaticamente todas as novas tabelas desde a última atualização. Ele também ingere todas as novas linhas nas tabelas existentes por até 72 horas.

Noções básicas sobre conectores

Na execução inicial do pipeline, o conector ingere todos os dados que o senhor exportou para o BigQuery para as tabelas que selecionou.
Na execução subsequente do pipeline, o conector ingere as novas linhas inseridas, com as ressalvas descritas neste artigo.
As atualizações e exclusões não são ingeridas.
O carregamento inicial obtém os dados de todas as datas presentes em seu projeto GA4/BigQuery.
O conector pressupõe que cada linha seja exclusiva. O Databricks não pode garantir o comportamento correto se houver duplicatas inesperadas.

Atualizar janelas e programas

O GA4 pode continuar atualizando as tabelas por até 72 horas após sua criação. Portanto, o Databricks rastreia e ingere atualizações nessas tabelas por 72 horas. O conector não ingere automaticamente atualizações nas tabelas após a janela de atualização de 72 horas (por exemplo, se o GA4 reprocessar dados históricos).

O senhor deve executar o LakeFlow Connect pipeline pelo menos a cada 72 horas, mas o Databricks recomenda executar o pipeline diariamente. A sincronização com menos frequência aumenta o risco de o conector precisar recuperar os dados.

Databricks também recomenda manter a janela de 7 dias da BigQuery's default viagem do tempo. Isso pode ajudar na eficiência da ingestão.

Modelos de dados em nível de tabela

eventos e events_tabelas intraday

Para a tabela events e a tabela events_intraday, uma linha no Databricks corresponde a uma linha no BigQuery.

Para a tabela events_intraday, não há garantia de que os dados existirão para uma data específica depois que os dados da mesma data estiverem disponíveis na tabela events. Isso ocorre porque a tabela events_intraday só se destina ao uso provisório até que a tabela events esteja pronta para esse dia.

tabela de usuários

Para ingerir a partir da tabela users, o conector se baseia em user_id como o key primário e last_updated_date como o key cursor. Como resultado, ele ingere apenas uma linha por ID de usuário de cada tabela users: a entrada com o maior last_updated_date.

Para preservar mais de uma linha por ID de usuário na tabela de destino, defina o modo SCD como tipo 2 na configuração da tabela.

tabela pseudonymous_users

Para ingerir a partir da tabela pseudonymous_users, o conector se baseia em pseudo_user_id e stream_id como chave primária. Ele usa o endereço last_updated_date como o cursor key. Como resultado, ele ingere apenas uma linha por pseudo ID de usuário de cada tabela pseudonymous_users: a entrada com o maior last_updated_date.

Para preservar mais de uma linha por ID de usuário na tabela de destino, defina o modo SCD como tipo 2 na configuração da tabela.

Como funciona a ingestão de GA4?​

Modelo de dados do conector​

Noções básicas sobre conectores​

Atualizar janelas e programas​

Modelos de dados em nível de tabela​

eventos e events_tabelas intraday​

tabela de usuários​

tabela pseudonymous_users​