Pular para o conteúdo principal

Criar um Google analítico Raw ingestão de dados pipeline

info

Visualização

O conector de dados brutos do Google analítica está em Public Preview.

Este artigo descreve como criar um Google analítico Raw ingestão de dados pipeline usando Databricks LakeFlow Connect e Google BigQuery. O senhor pode criar o pipeline usando a interface do usuário do Databricks ou as APIs do Databricks.

Antes de começar

Para criar um pipeline de ingestão, o senhor deve atender aos seguintes requisitos:

  • Seu workspace está habilitado para Unity Catalog.
  • O compute sem servidor está habilitado para o seu workspace. Consulte Ativar serverless compute .
  • Se você planeja criar uma conexão: Você tem privilégios CREATE CONNECTION na metastore.
  • Se você planeja usar uma conexão existente: Você tem privilégios USE CONNECTION ou ALL PRIVILEGES no objeto de conexão.
  • Você tem privilégios USE CATALOG no catálogo de destino.
  • Você tem privilégios USE SCHEMA e CREATE TABLE em um esquema existente ou privilégios CREATE SCHEMA no catálogo de destino.

Para ingerir a partir do GA4 usando BigQuery, consulte Configurar o Google analítica 4 e o Google BigQuery para ingerir Databricks.

Criar o pipeline de ingestão

Permissões necessárias: USE CONNECTION ou ALL PRIVILEGES em uma conexão.

Esta etapa descreve como criar o pipeline de ingestão. Cada tabela ingerida é gravada em uma tabela de transmissão com o mesmo nome.

  1. Na barra lateral do site Databricks workspace, clique em ingestão de dados .

  2. Na página Add data (Adicionar dados) , em Databricks connectors (conectores ), clique em Google analítica 4 .

    O assistente de ingestão é aberto.

  3. Na página Ingestion pipeline (Pipeline de ingestão ) do assistente, digite um nome exclusivo para o pipeline.

  4. No menu suspenso Catálogo de destino , selecione um catálogo. Os dados ingeridos e o evento logs serão gravados nesse catálogo. Você selecionará um esquema de destino posteriormente.

  5. Selecione a conexão do Unity Catalog que armazena as credenciais necessárias para acessar os dados de origem.

    Se não houver conexões existentes com a fonte, clique em Create connection (Criar conexão ) e insira os detalhes de autenticação que o senhor obteve em Set up Google analítica 4 and Google BigQuery for Databricks ingestion (Configurar o Google analítica 4 e o Google para ingestão). Você deve ter privilégios CREATE CONNECTION na metastore.

  6. Clique em Create pipeline (Criar pipeline) e continue .

  7. Na página Source (Origem) , selecione as tabelas a serem ingeridas no Databricks e clique em Next (Avançar ).

  8. Na página Destination (Destino ), selecione o catálogo e o esquema do Unity Catalog para gravar.

    Se você não quiser usar um esquema existente, clique em Criar esquema . Você deve ter privilégios USE CATALOG e CREATE SCHEMA no catálogo principal.

  9. Clique em Save pipeline (Salvar pipeline) e continue .

  10. (Opcional) Na página Settings (Configurações ), clique em Create programar (Criar programa ). Defina a frequência para refresh as tabelas de destino.

  11. (Opcional) Defina as notificações do site email para o sucesso ou fracasso das operações do pipeline.

  12. Clique em Save e execute pipeline .

Atualize seu programa pipeline e as notificações

O senhor pode criar um programa para o pipeline na página de detalhes do pipeline.

  1. Depois que o pipeline tiver sido criado, acesse novamente o Databricks workspace e clique em pipeline .

    O novo pipeline aparece na lista pipeline.

  2. Para acessar view os detalhes de pipeline, clique no nome pipeline.

  3. Na página de detalhes do pipeline, o senhor pode programar o pipeline clicando em programar .

  4. Para definir notificações no pipeline, clique em Settings (Configurações ) e, em seguida, adicione uma notificação.

Para cada programa que o senhor adicionar a um pipeline, o LakeFlow Connect cria automaticamente um Job para ele. A ingestão pipeline é uma tarefa dentro do trabalho. Opcionalmente, o senhor pode adicionar mais tarefas ao trabalho.