Pular para o conteúdo principal

Conceitos do conector Google analítica dados brutos

O conector de dados brutos do Google Analytics permite ingerir dados brutos em nível de evento do Google Analytics 4 (GA4) usando Databricks LakeFlow Connect e o Google BigQuery.

Como funciona a ingestão de GA4?

Primeiro, você deve exportar seus dados do GA4 para o BigQuery usando as APIs ou interfaces de usuário fornecidas pelo Google. Em seguida, o Databricks consome os dados do BigQuery usando as seguintes APIs:

  • A API do BigQuery para operações de metadados (por exemplo, para listar tabelas e esquemas)
  • A API de armazenamento do BigQuery para ingestão de dados
  • A API do Cloud Recurso Manager para exploração de esquemas.

Modelo de dados do conector

O conector GA4 pode importar as seguintes tabelas de uma determinada propriedade GA4:

  • events
  • events_intraday
  • users
  • pseudonymous_users

Para cada dia em que os dados chegam ao GA4, uma tabela particionada por data é criada automaticamente no BigQuery. O nome da tabela BigQuery tem o formato <table_name>_YYYYMMDD (por exemplo, events_20241024).

Durante cada atualização pipeline LakeFlow Connect , o conector ingere automaticamente quaisquer novas tabelas desde a última atualização. Ele também incorpora quaisquer novas linhas em tabelas existentes por até 72 horas.

Noções básicas de conectores

  • Na execução inicial do pipeline, o conector ingere todos os dados que você exportou para o BigQuery para as tabelas que você selecionou.
  • Na execução subsequente pipeline , o conector ingere as linhas recém-inseridas, com as ressalvas descritas neste artigo.
  • Atualizações e exclusões não são incorporadas.
  • O carregamento inicial busca os dados para todas as datas presentes no seu projeto GA4/BigQuery.
  • O conector pressupõe que cada linha seja única. O Databricks não pode garantir o comportamento correto se houver duplicatas inesperadas.

Atualizar janelas e programas

O GA4 pode continuar atualizando tabelas por até 72 horas após sua criação. Portanto, o Databricks rastreia e ingere atualizações nessas tabelas por 72 horas. O conector não incorpora automaticamente as atualizações nas tabelas após o período de atualização de 72 horas (por exemplo, se o GA4 reprocessar dados históricos).

Você deve executar seu pipeline LakeFlow Connect pelo menos a cada 72 horas, mas Databricks recomenda executá pipeline diariamente. Sincronizar com menos frequência aumenta o risco de o conector precisar buscar dados novamente.

Databricks também recomenda manter a janela de tempo default do BigQuery de 7 dias. Isso pode ajudar na eficiência da ingestão.

modelos de dados em nível de tabela

eventos e tabelas de eventos intraday

Para a tabela events e a tabela events_intraday , uma linha no Databricks corresponde a uma linha no BigQuery.

Para a tabela events_intraday , não há garantia de que os dados existirão para uma data específica depois que os dados para a mesma data estiverem disponíveis na tabela events . Isso ocorre porque a tabela events_intraday destina-se apenas ao uso provisório até que a tabela events esteja pronta para aquele dia.

tabela de usuários

Para ingerir da tabela users , o conector depende de user_id como key primária e last_updated_date como key de cursor. Como resultado, ele ingere apenas uma linha por ID de usuário de cada tabela users : a entrada com o maior last_updated_date.

Para preservar mais de uma linha por ID de usuário na tabela de destino, defina o modo SCD para o tipo 2 na configuração da tabela.

tabela de usuários pseudônimos

Para ingerir da tabela pseudonymous_users , o conector depende de pseudo_user_id e stream_id como chave primária. Ele usa o last_updated_date como key de cursor. Como resultado, ele ingere apenas uma linha por ID de usuário pseudo de cada tabela pseudonymous_users : a entrada com o maior last_updated_date.

Para preservar mais de uma linha por ID de usuário na tabela de destino, defina o modo SCD para o tipo 2 na configuração da tabela.