Criar um Google analítico Raw ingestão de dados pipeline
Visualização
O conector de dados brutos do Google analítica está em Public Preview.
Este artigo descreve como criar um Google analítico Raw ingestão de dados pipeline usando Databricks LakeFlow Connect e Google BigQuery. O senhor pode criar o pipeline usando a interface do usuário do Databricks ou as APIs do Databricks.
Antes de começar
Para criar um pipeline de ingestão, o senhor deve atender aos seguintes requisitos:
- Seu workspace está habilitado para Unity Catalog.
- O compute sem servidor está habilitado para o seu workspace. Consulte Ativar serverless compute .
- Se você planeja criar uma conexão: Você tem privilégios
CREATE CONNECTION
na metastore. - Se você planeja usar uma conexão existente: Você tem privilégios
USE CONNECTION
ouALL PRIVILEGES
no objeto de conexão. - Você tem privilégios
USE CATALOG
no catálogo de destino. - Você tem privilégios
USE SCHEMA
eCREATE TABLE
em um esquema existente ou privilégiosCREATE SCHEMA
no catálogo de destino.
Para ingerir a partir do GA4 usando BigQuery, consulte Configurar o Google analítica 4 e o Google BigQuery para ingerir Databricks.
Criar o pipeline de ingestão
Permissões necessárias: USE CONNECTION
ou ALL PRIVILEGES
em uma conexão.
Esta etapa descreve como criar o pipeline de ingestão. Cada tabela ingerida é gravada em uma tabela de transmissão com o mesmo nome.
- Databricks UI
- Databricks notebook
- Databricks CLI
-
Na barra lateral do site Databricks workspace, clique em ingestão de dados .
-
Na página Add data (Adicionar dados) , em Databricks connectors (conectores ), clique em Google analítica 4 .
O assistente de ingestão é aberto.
-
Na página Ingestion pipeline (Pipeline de ingestão ) do assistente, digite um nome exclusivo para o pipeline.
-
No menu suspenso Catálogo de destino , selecione um catálogo. Os dados ingeridos e o evento logs serão gravados nesse catálogo. Você selecionará um esquema de destino posteriormente.
-
Selecione a conexão do Unity Catalog que armazena as credenciais necessárias para acessar os dados de origem.
Se não houver conexões existentes com a fonte, clique em Create connection (Criar conexão ) e insira os detalhes de autenticação que o senhor obteve em Set up Google analítica 4 and Google BigQuery for Databricks ingestion (Configurar o Google analítica 4 e o Google para ingestão). Você deve ter privilégios
CREATE CONNECTION
na metastore. -
Clique em Create pipeline (Criar pipeline) e continue .
-
Na página Source (Origem) , selecione as tabelas a serem ingeridas no Databricks e clique em Next (Avançar ).
-
Na página Destination (Destino ), selecione o catálogo e o esquema do Unity Catalog para gravar.
Se você não quiser usar um esquema existente, clique em Criar esquema . Você deve ter privilégios
USE CATALOG
eCREATE SCHEMA
no catálogo principal. -
Clique em Save pipeline (Salvar pipeline) e continue .
-
(Opcional) Na página Settings (Configurações ), clique em Create programar (Criar programa ). Defina a frequência para refresh as tabelas de destino.
-
(Opcional) Defina as notificações do site email para o sucesso ou fracasso das operações do pipeline.
-
Clique em Save e execute pipeline .
-
Gere tokens de acesso pessoal e copie os tokens para que o senhor possa colá-los em um Notebook posteriormente. Consulte Databricks acesso pessoal tokens para usuários de workspace.
-
Importe o seguinte Notebook para o site workspace:
Criar uma ingestão bruta de dados do Google analítica pipeline
-
Modifique os seguintes valores no Notebook:
Célula 1:
api_token
: Os tokens de acesso pessoal que o senhor gerou
Célula 3:
name
: Um nome para o pipelineconnection_name
: O nome da conexão do Unity Catalog que o senhor criou no Catalog Explorer (Catalog > External data > Connections ). Se você não tiver uma conexão existente com a fonte, poderá criar uma. Você deve ter o privilégioCREATE CONNECTION
na metastore.source_catalog
: ID de um projeto do Google Cloud Platform (GCP). Se o catálogo de origem não for especificado, o conector presumirá que o projeto GCP a ser ingerido é o mencionado no serviço account.source_schema
: Um nome de propriedade do Google Analytics no formatoanalytics_XXXXXXXX
source_table
: O nome da tabela de origem:events
,events_intraday
,users
oupseudonymous_users
destination_catalog
: um nome para o catálogo de destino que conterá os dados ingeridosdestination_schema
: um nome para o esquema de destino que conterá os dados ingeridosscd_type
: O método SCD a ser usado:SCD_TYPE_1
ouSCD_TYPE_2
. Ver história acompanhamento.
-
Clique em Executar tudo .
Para criar o pipeline:
databricks pipelines create --json "<pipeline definition or json file path>"
Para editar o pipeline:
databricks pipelines update --json "<pipeline definition or json file path>"
Para obter a definição do pipeline:
databricks pipelines get "<pipeline-id>"
Para excluir o pipeline:
databricks pipelines delete "<pipeline-id>"
Para obter mais informações, execute:
databricks pipelines --help
databricks pipelines <create|update|get|delete|...> --help
Atualize seu programa pipeline e as notificações
O senhor pode criar um programa para o pipeline na página de detalhes do pipeline.
-
Depois que o pipeline tiver sido criado, acesse novamente o Databricks workspace e clique em pipeline .
O novo pipeline aparece na lista pipeline.
-
Para acessar view os detalhes de pipeline, clique no nome pipeline.
-
Na página de detalhes do pipeline, o senhor pode programar o pipeline clicando em programar .
-
Para definir notificações no pipeline, clique em Settings (Configurações ) e, em seguida, adicione uma notificação.
Para cada programa que o senhor adicionar a um pipeline, o LakeFlow Connect cria automaticamente um Job para ele. A ingestão pipeline é uma tarefa dentro do trabalho. Opcionalmente, o senhor pode adicionar mais tarefas ao trabalho.