Criar um Google analítico Raw ingestão de dados pipeline
Este artigo descreve como criar um Google analítico Raw ingestão de dados pipeline usando Databricks LakeFlow Connect e Google BigQuery. O senhor pode criar o pipeline usando a interface do usuário do Databricks ou as APIs do Databricks.
Antes de começar
Para criar um pipeline de ingestão, o senhor deve atender aos seguintes requisitos:
-
Seu workspace deve estar habilitado para o Unity Catalog.
-
O compute sem servidor deve estar habilitado para o seu workspace. Consulte Ativar serverless compute .
-
Se você planeja criar uma nova conexão: você deve ter privilégios
CREATE CONNECTION
na metastore.Se o seu conector for compatível com a criação de pipeline com base na interface do usuário, o senhor poderá criar a conexão e o pipeline ao mesmo tempo, concluindo as etapas desta página. No entanto, se o senhor usar a criação de pipeline baseada em API, deverá criar a conexão no Catalog Explorer antes de concluir as etapas desta página. Consulte Conectar-se a fontes de ingestão de gerenciar.
-
Se você planeja usar uma conexão existente: você deve ter privilégios
USE CONNECTION
ouALL PRIVILEGES
no objeto de conexão. -
Você deve ter privilégios
USE CATALOG
no catálogo de destino. -
Você deve ter privilégios
USE SCHEMA
eCREATE TABLE
em um esquema existente ou privilégiosCREATE SCHEMA
no catálogo de destino.
Para ingerir a partir do GA4 usando BigQuery, consulte Configurar o Google analítica 4 e o Google BigQuery para ingerir Databricks.
Configurar a rede
Se o senhor tiver o controle de saída serverless ativado, coloque na lista de permissões os seguintes URLs. Caso contrário, pule essa etapa. Consulte gerenciar políticas de rede para serverless controle de saída.
bigquery.googleapis.com
oauth2.googleapis.com
bigquerystorage.googleapis.com
googleapis.com
Criar o pipeline de ingestão
Permissões necessárias: USE CONNECTION
ou ALL PRIVILEGES
em uma conexão.
Esta etapa descreve como criar o pipeline de ingestão. Cada tabela ingerida é gravada em uma tabela de transmissão com o mesmo nome.
- Databricks UI
- Databricks notebook
- Databricks CLI
-
Na barra lateral do site Databricks workspace, clique em ingestão de dados .
-
Na página Add data (Adicionar dados) , em Databricks connectors (conectores ), clique em Google analítica 4 .
O assistente de ingestão é aberto.
-
Na página Ingestion pipeline (Pipeline de ingestão ) do assistente, digite um nome exclusivo para o pipeline.
-
No menu suspenso Catálogo de destino , selecione um catálogo. Os dados ingeridos e o evento logs serão gravados nesse catálogo. Você selecionará um esquema de destino posteriormente.
-
Selecione a conexão do Unity Catalog que armazena as credenciais necessárias para acessar os dados de origem.
Se não houver conexões existentes com a fonte, clique em Create connection (Criar conexão ) e insira os detalhes de autenticação que o senhor obteve em Set up Google analítica 4 and Google BigQuery for Databricks ingestion (Configurar o Google analítica 4 e o Google para ingestão). Você deve ter privilégios
CREATE CONNECTION
na metastore. -
Clique em Create pipeline (Criar pipeline) e continue .
-
Na página Source (Origem) , selecione as tabelas a serem ingeridas no Databricks e clique em Next (Avançar ).
-
Na página Destination (Destino ), selecione o catálogo e o esquema do Unity Catalog para gravar.
Se você não quiser usar um esquema existente, clique em Criar esquema . Você deve ter privilégios
USE CATALOG
eCREATE SCHEMA
no catálogo principal. -
Clique em Save pipeline (Salvar pipeline) e continue .
-
(Opcional) Na página Settings (Configurações ), clique em Create programar (Criar programa ). Defina a frequência para refresh as tabelas de destino.
-
(Opcional) Defina as notificações do site email para o sucesso ou fracasso das operações do pipeline.
-
Clique em Save e execute pipeline .
-
Gere tokens de acesso pessoal e copie os tokens para que o senhor possa colá-los em um Notebook posteriormente. Consulte Databricks acesso pessoal tokens para usuários de workspace.
-
Importe o seguinte Notebook para o site workspace:
Criar uma ingestão bruta de dados do Google analítica pipeline
-
Modifique os seguintes valores no Notebook:
Célula 1:
api_token
: Os tokens de acesso pessoal que o senhor gerou
Célula 3:
name
: Um nome para o pipelineconnection_name
: O nome da conexão do Unity Catalog que o senhor criou no Catalog Explorer (Catalog > External data > Connections ). Se você não tiver uma conexão existente com a fonte, poderá criar uma. Você deve ter o privilégioCREATE CONNECTION
na metastore.source_catalog
: ID de um projeto do Google Cloud Platform (GCP). Se o catálogo de origem não for especificado, o conector presumirá que o projeto GCP a ser ingerido é o mencionado no serviço account.source_schema
: Um nome de propriedade do Google Analytics no formatoanalytics_XXXXXXXX
source_table
: O nome da tabela de origem:events
,events_intraday
,users
oupseudonymous_users
destination_catalog
: um nome para o catálogo de destino que conterá os dados ingeridosdestination_schema
: um nome para o esquema de destino que conterá os dados ingeridosscd_type
: O método SCD a ser usado:SCD_TYPE_1
ouSCD_TYPE_2
. Ver história acompanhamento.
-
Clique em Executar tudo .
Para criar o pipeline:
databricks pipelines create --json "<pipeline definition or json file path>"
Para editar o pipeline:
databricks pipelines update --json "<pipeline definition or json file path>"
Para obter a definição do pipeline:
databricks pipelines get "<pipeline-id>"
Para excluir o pipeline:
databricks pipelines delete "<pipeline-id>"
Para obter mais informações, execute:
databricks pipelines --help
databricks pipelines <create|update|get|delete|...> --help
Atualize seu programa pipeline e as notificações
O senhor pode criar um programa para o pipeline na página de detalhes do pipeline.
-
Depois que o pipeline tiver sido criado, acesse novamente o Databricks workspace e clique em pipeline .
O novo pipeline aparece na lista pipeline.
-
Para acessar view os detalhes de pipeline, clique no nome pipeline.
-
Na página de detalhes do pipeline, o senhor pode programar o pipeline clicando em programar .
-
Para definir notificações no pipeline, clique em Settings (Configurações ) e, em seguida, adicione uma notificação.
Para cada programa que o senhor adicionar a um pipeline, o LakeFlow Connect cria automaticamente um Job para ele. A ingestão pipeline é uma tarefa dentro do trabalho. Opcionalmente, o senhor pode adicionar mais tarefas ao trabalho.