Criar um Google analítico Raw ingestão de dados pipeline

Esta página descreve como criar um pipeline de análise de dados Raw do Google usando Databricks LakeFlow Connect e Google BigQuery. Você pode criar o pipeline usando a interface do usuário do Databricks ou as APIs do Databricks.

Antes de começar

Para criar um pipeline de ingestão, o senhor deve atender aos seguintes requisitos:

Seu workspace deve estar habilitado para o Unity Catalog.
O compute sem servidor deve estar habilitado para o seu workspace. Consulte os requisitos do compute sem servidor.
Se você planeja criar uma nova conexão: você deve ter privilégios CREATE CONNECTION na metastore.

Se o conector oferecer suporte à criação pipeline baseada em interface de usuário, um administrador poderá criar a conexão e o pipeline ao mesmo tempo, concluindo os passos nesta página. No entanto, se os usuários que criam o pipeline usarem a criação pipeline baseada em API ou não forem usuários administradores, um administrador deverá primeiro criar a conexão no Catalog Explorer. Veja Conectar às fontes de ingestão de gerenciar.
Se você planeja usar uma conexão existente: você deve ter privilégios USE CONNECTION ou ALL PRIVILEGES no objeto de conexão.
Você deve ter privilégios USE CATALOG no catálogo de destino.
Você deve ter privilégios USE SCHEMA e CREATE TABLE em um esquema existente ou privilégios CREATE SCHEMA no catálogo de destino.

Para ingerir a partir do GA4 usando BigQuery, consulte Configurar o Google analítica 4 e o Google BigQuery para ingerir Databricks.

Configurar a rede

Quando o controle de saída serverless estiver habilitado e o acesso à rede for restrito a destinos específicos, você deverá definir regras de saída na sua política de rede. Consulte Configurar políticas de rede.

Criar o pipeline de ingestão

Permissões necessárias: USE CONNECTION em uma conexão.

Esta etapa descreve como criar o pipeline de ingestão. Cada tabela ingerida é gravada em uma tabela de transmissão com o mesmo nome.

info

Beta

Você pode filtrar linhas durante a ingestão para melhorar o desempenho e reduzir a duplicação de dados. Consulte Selecionar linhas para ingestão.

Databricks UI
Databricks notebook
Databricks CLI

Na barra lateral do site Databricks workspace, clique em ingestão de dados .
Na página Add data (Adicionar dados) , em Databricks connectors (conectores ), clique em Google analítica 4 .

O assistente de ingestão é aberto.
Na página Ingestion pipeline (Pipeline de ingestão ) do assistente, digite um nome exclusivo para o pipeline.
No menu suspenso Catálogo de destino , selecione um catálogo. Os dados ingeridos e o evento logs serão gravados nesse catálogo. Você selecionará um esquema de destino posteriormente.
Selecione a conexão do Unity Catalog que armazena as credenciais necessárias para acessar os dados de origem.

Se não houver conexões existentes com a fonte, clique em Create connection (Criar conexão ) e insira os detalhes de autenticação que o senhor obteve em Set up Google analítica 4 and Google BigQuery for Databricks ingestion (Configurar o Google analítica 4 e o Google para ingestão). Você deve ter privilégios CREATE CONNECTION na metastore.

A interface do usuário do Databricks suporta apenas o OAuth para conexões GA4. No entanto, o senhor pode usar a autenticação básica ao criar a conexão usando as APIs da Databricks. Consulte Google analítica dados brutos.
Clique em Create pipeline (Criar pipeline) e continue .
Na página Source (Origem) , selecione as tabelas a serem ingeridas no Databricks e clique em Next (Avançar ).
Na página Destination (Destino ), selecione o catálogo e o esquema do Unity Catalog para gravar.

Se você não quiser usar um esquema existente, clique em Criar esquema . Você deve ter privilégios USE CATALOG e CREATE SCHEMA no catálogo principal.
Clique em Save pipeline (Salvar pipeline) e continue .
(Opcional) Na página Settings (Configurações ), clique em Create programar (Criar programa ). Defina a frequência para refresh as tabelas de destino.
(Opcional) Defina as notificações do site email para o sucesso ou fracasso das operações do pipeline.
Clique em Save e execute pipeline .

Gere um access token pessoal e copie os tokens para poder colá-los em um Notebook mais tarde. Consulte Criar access tokens pessoais para usuários workspace.
Importe o seguinte Notebook para o site workspace:

Criar uma ingestão bruta de dados do Google analítica pipeline

Open notebook in new tab

Modifique os seguintes valores no Notebook:

Célula 1:
- api_token: Os tokens de acesso pessoal que o senhor gerou
Célula 3:
- name: Um nome para o pipeline
- connection_name: O nome da conexão do Unity Catalog que o senhor criou no Catalog Explorer (Catalog > External data > Connections ). Se você não tiver uma conexão existente com a fonte, poderá criar uma. Você deve ter o privilégio CREATE CONNECTION na metastore.
- source_catalog: ID de um projeto do Google Cloud Platform (GCP). Se o catálogo de origem não for especificado, o conector presumirá que o projeto GCP a ser ingerido é o mencionado no serviço account.
- source_schema: Um nome de propriedade do Google Analytics no formato analytics_XXXXXXXX
- source_table: O nome da tabela de origem: events, events_intraday, users ou pseudonymous_users
- destination_catalog: um nome para o catálogo de destino que conterá os dados ingeridos
- destination_schema: um nome para o esquema de destino que conterá os dados ingeridos
- scd_type: O método SCD a ser usado: SCD_TYPE_1 ou SCD_TYPE_2. Consulte Ativar acompanhamento da história (SCD type 2).
Clique em Executar tudo .

Para criar o pipeline:

SQL
databricks pipelines create --json "<pipeline definition or json file path>"

Para editar o pipeline:

SQL
databricks pipelines update --json "<pipeline definition or json file path>"

Para obter a definição do pipeline:

SQL
databricks pipelines get "<pipeline-id>"

Para excluir o pipeline:

SQL
databricks pipelines delete "<pipeline-id>"

Para obter mais informações, execute:

SQL
databricks pipelines --help
databricks pipelines <create|update|get|delete|...> --help

Atualize seu programa pipeline e as notificações

O senhor pode criar um programa para o pipeline na página de detalhes do pipeline.

Depois que o pipeline tiver sido criado, acesse novamente o Databricks workspace e clique em pipeline .

O novo pipeline aparece na lista pipeline.
Para acessar view os detalhes de pipeline, clique no nome pipeline.
Na página de detalhes do pipeline, o senhor pode programar o pipeline clicando em programar .
Para definir notificações no pipeline, clique em Settings (Configurações ) e, em seguida, adicione uma notificação.

Para cada programa que o senhor adicionar a um pipeline, o LakeFlow Connect cria automaticamente um Job para ele. A ingestão pipeline é uma tarefa dentro do trabalho. Opcionalmente, o senhor pode adicionar mais tarefas ao trabalho.

Antes de começar​

Configurar a rede​

Criar o pipeline de ingestão​

Criar uma ingestão bruta de dados do Google analítica pipeline

Atualize seu programa pipeline e as notificações​

Recurso adicional​

Antes de começar

Configurar a rede

Criar o pipeline de ingestão

Atualize seu programa pipeline e as notificações

Recurso adicional