Google analítica dados brutos connector concepts
Visualização
O conector de dados brutos do Google analítica está em Public Preview.
O conector de dados brutos do Google analítica permite que o senhor ingira dados brutos em nível de evento do Google analítica 4 (GA4) usando Databricks LakeFlow Connect e Google BigQuery.
Como funciona a ingestão de GA4?
Primeiro, o senhor deve exportar seus dados do GA4 para o BigQuery usando as APIs ou UIs fornecidas pelo Google. Em seguida, a Databricks consome os dados do BigQuery usando as seguintes APIs:
- A API do BigQuery para operações de metadados (por exemplo, para listar tabelas e esquemas)
- A API de armazenamento do BigQuery para ingestão de dados
- O Cloud Recurso Manager API para exploração de esquemas
Modelo de dados do conector
O conector GA4 pode ingerir as seguintes tabelas de uma determinada propriedade do GA4:
events
events_intraday
users
pseudonymous_users
Para cada dia em que os dados chegam ao GA4, uma tabela particionada por data é criada automaticamente no BigQuery. O nome da tabela do BigQuery tem o formato <table_name>_YYYYMMDD
(por exemplo, events_20241024
).
Durante cada atualização do LakeFlow Connect pipeline , o conector ingere automaticamente todas as novas tabelas desde a última atualização. Ele também ingere todas as novas linhas nas tabelas existentes por até 72 horas.
Noções básicas sobre conectores
-
Na execução inicial do pipeline, o conector ingere todos os dados que o senhor exportou para o BigQuery para as tabelas que selecionou.
-
Na execução subsequente do pipeline, o conector ingere as novas linhas inseridas, com as ressalvas descritas neste artigo.
-
As atualizações e exclusões não são ingeridas.
-
O carregamento inicial obtém os dados de todas as datas presentes em seu projeto GA4/BigQuery.
-
O conector pressupõe que cada linha seja exclusiva. O Databricks não pode garantir o comportamento correto se houver duplicatas inesperadas.
Atualizar janelas e programas
O GA4 pode continuar atualizando as tabelas por até 72 horas após sua criação. Portanto, o Databricks rastreia e ingere atualizações nessas tabelas por 72 horas. O conector não ingere automaticamente atualizações nas tabelas após a janela de atualização de 72 horas (por exemplo, se o GA4 reprocessar dados históricos).
O senhor deve executar o LakeFlow Connect pipeline pelo menos a cada 72 horas, mas o Databricks recomenda executar o pipeline diariamente. A sincronização com menos frequência aumenta o risco de o conector precisar recuperar os dados.
Databricks também recomenda manter a janela de 7 dias da BigQuery's default viagem do tempo. Isso pode ajudar na eficiência da ingestão.
Modelos de dados em nível de tabela e outras key informações
eventos e events_tabelas intraday
Para a tabela events
e a tabela events_intraday
, uma linha no Databricks corresponde a uma linha no BigQuery.
Para a tabela events_intraday
, não há garantia de que os dados existirão para uma data específica depois que os dados da mesma data estiverem disponíveis na tabela events
. Isso ocorre porque a tabela events_intraday
só se destina ao uso provisório até que a tabela events
esteja pronta para esse dia.
tabela de usuários
Para ingerir a partir da tabela users
, o conector se baseia em user_id
como o key primário e last_updated_date
como o key cursor. Como resultado, ele ingere apenas uma linha por ID de usuário de cada tabela users
: a entrada com o maior last_updated_date
.
Para preservar mais de uma linha por ID de usuário na tabela de destino, defina o modo SCD como tipo 2 na configuração da tabela.
tabela pseudonymous_users
Para ingerir a partir da tabela pseudonymous_users
, o conector se baseia em pseudo_user_id
e stream_id
como chave primária. Ele usa o endereço last_updated_date
como o cursor key. Como resultado, ele ingere apenas uma linha por pseudo ID de usuário de cada tabela pseudonymous_users
: a entrada com o maior last_updated_date
.
Para preservar mais de uma linha por ID de usuário na tabela de destino, defina o modo SCD como tipo 2 na configuração da tabela.