Criar um Google analítico Raw ingestão de dados pipeline

Este artigo descreve como criar um Google analítico Raw ingestão de dados pipeline usando Databricks LakeFlow Connect e Google BigQuery. O senhor pode criar o pipeline usando a interface do usuário do Databricks ou as APIs do Databricks.

Antes de começar

Para criar um pipeline de ingestão, o senhor deve atender aos seguintes requisitos:

Seu workspace deve estar habilitado para o Unity Catalog.
O compute sem servidor deve estar habilitado para o seu workspace. Consulte os requisitos do compute sem servidor.
Se você planeja criar uma nova conexão: você deve ter privilégios CREATE CONNECTION na metastore.

Se o conector oferecer suporte à criação pipeline baseada em interface de usuário, um administrador poderá criar a conexão e o pipeline ao mesmo tempo, concluindo os passos nesta página. No entanto, se os usuários que criam o pipeline usarem a criação pipeline baseada em API ou não forem usuários administradores, um administrador deverá primeiro criar a conexão no Catalog Explorer. Veja Conectar às fontes de ingestão de gerenciar.
Se você planeja usar uma conexão existente: você deve ter privilégios USE CONNECTION ou ALL PRIVILEGES no objeto de conexão.
Você deve ter privilégios USE CATALOG no catálogo de destino.
Você deve ter privilégios USE SCHEMA e CREATE TABLE em um esquema existente ou privilégios CREATE SCHEMA no catálogo de destino.

Para ingerir a partir do GA4 usando BigQuery, consulte Configurar o Google analítica 4 e o Google BigQuery para ingerir Databricks.

Configurar a rede

Se o senhor tiver o controle de saída serverless ativado, coloque na lista de permissões os seguintes URLs. Caso contrário, pule essa etapa. Consulte gerenciar políticas de rede para serverless controle de saída.

bigquery.googleapis.com
oauth2.googleapis.com
bigquerystorage.googleapis.com
googleapis.com

Criar o pipeline de ingestão

Permissões necessárias: USE CONNECTION ou ALL PRIVILEGES em uma conexão.

Esta etapa descreve como criar o pipeline de ingestão. Cada tabela ingerida é gravada em uma tabela de transmissão com o mesmo nome.

Databricks UI
Databricks notebook
Databricks CLI

Na barra lateral do site Databricks workspace, clique em ingestão de dados .
Na página Add data (Adicionar dados) , em Databricks connectors (conectores ), clique em Google analítica 4 .

O assistente de ingestão é aberto.
Na página Ingestion pipeline (Pipeline de ingestão ) do assistente, digite um nome exclusivo para o pipeline.
No menu suspenso Catálogo de destino , selecione um catálogo. Os dados ingeridos e o evento logs serão gravados nesse catálogo. Você selecionará um esquema de destino posteriormente.
Selecione a conexão do Unity Catalog que armazena as credenciais necessárias para acessar os dados de origem.

Se não houver conexões existentes com a fonte, clique em Create connection (Criar conexão ) e insira os detalhes de autenticação que o senhor obteve em Set up Google analítica 4 and Google BigQuery for Databricks ingestion (Configurar o Google analítica 4 e o Google para ingestão). Você deve ter privilégios CREATE CONNECTION na metastore.

A interface do usuário do Databricks suporta apenas o OAuth para conexões GA4. No entanto, o senhor pode usar a autenticação básica ao criar a conexão usando as APIs da Databricks. Consulte Google analítica dados brutos.
Clique em Create pipeline (Criar pipeline) e continue .
Na página Source (Origem) , selecione as tabelas a serem ingeridas no Databricks e clique em Next (Avançar ).
Na página Destination (Destino ), selecione o catálogo e o esquema do Unity Catalog para gravar.

Se você não quiser usar um esquema existente, clique em Criar esquema . Você deve ter privilégios USE CATALOG e CREATE SCHEMA no catálogo principal.
Clique em Save pipeline (Salvar pipeline) e continue .
(Opcional) Na página Settings (Configurações ), clique em Create programar (Criar programa ). Defina a frequência para refresh as tabelas de destino.
(Opcional) Defina as notificações do site email para o sucesso ou fracasso das operações do pipeline.
Clique em Save e execute pipeline .

Gere um access token pessoal e copie os tokens para poder colá-los em um Notebook mais tarde. Consulte Criar access tokens pessoais para usuários workspace.
Importe o seguinte Notebook para o site workspace:

Criar uma ingestão bruta de dados do Google analítica pipeline

Open notebook in new tab

Modifique os seguintes valores no Notebook:

Célula 1:
- api_token: Os tokens de acesso pessoal que o senhor gerou
Célula 3:
- name: Um nome para o pipeline
- connection_name: O nome da conexão do Unity Catalog que o senhor criou no Catalog Explorer (Catalog > External data > Connections ). Se você não tiver uma conexão existente com a fonte, poderá criar uma. Você deve ter o privilégio CREATE CONNECTION na metastore.
- source_catalog: ID de um projeto do Google Cloud Platform (GCP). Se o catálogo de origem não for especificado, o conector presumirá que o projeto GCP a ser ingerido é o mencionado no serviço account.
- source_schema: Um nome de propriedade do Google Analytics no formato analytics_XXXXXXXX
- source_table: O nome da tabela de origem: events, events_intraday, users ou pseudonymous_users
- destination_catalog: um nome para o catálogo de destino que conterá os dados ingeridos
- destination_schema: um nome para o esquema de destino que conterá os dados ingeridos
- scd_type: O método SCD a ser usado: SCD_TYPE_1 ou SCD_TYPE_2. Consulte Ativar acompanhamento da história (SCD type 2).
Clique em Executar tudo .

Para criar o pipeline:

SQL
databricks pipelines create --json "<pipeline definition or json file path>"

Para editar o pipeline:

SQL
databricks pipelines update --json "<pipeline definition or json file path>"

Para obter a definição do pipeline:

SQL
databricks pipelines get "<pipeline-id>"

Para excluir o pipeline:

SQL
databricks pipelines delete "<pipeline-id>"

Para obter mais informações, execute:

SQL
databricks pipelines --help
databricks pipelines <create|update|get|delete|...> --help

Atualize seu programa pipeline e as notificações

O senhor pode criar um programa para o pipeline na página de detalhes do pipeline.

Depois que o pipeline tiver sido criado, acesse novamente o Databricks workspace e clique em pipeline .

O novo pipeline aparece na lista pipeline.
Para acessar view os detalhes de pipeline, clique no nome pipeline.
Na página de detalhes do pipeline, o senhor pode programar o pipeline clicando em programar .
Para definir notificações no pipeline, clique em Settings (Configurações ) e, em seguida, adicione uma notificação.

Para cada programa que o senhor adicionar a um pipeline, o LakeFlow Connect cria automaticamente um Job para ele. A ingestão pipeline é uma tarefa dentro do trabalho. Opcionalmente, o senhor pode adicionar mais tarefas ao trabalho.

Antes de começar​

Configurar a rede​

Criar o pipeline de ingestão​

Criar uma ingestão bruta de dados do Google analítica pipeline

Atualize seu programa pipeline e as notificações​

Recurso adicional​

Antes de começar

Configurar a rede

Criar o pipeline de ingestão

Atualize seu programa pipeline e as notificações

Recurso adicional