Ingerir dados do Google Ads

info

Beta

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.

Aprenda como criar um pipeline de ingestão gerenciado para importar dados do Google Ads para o Databricks.

Requisitos

Para criar um pipeline de ingestão, você deve atender aos seguintes requisitos:
- Seu workspace deve estar habilitado para o Unity Catalog.
- compute sem servidor (serverless compute) deve estar habilitado para seu workspace. Consulte os requisitos compute sem servidor.
- Se você planeja criar uma nova conexão: Você deve ter privilégios CREATE CONNECTION no metastore. Consulte a seção sobre privilégios de gerenciamento no Unity Catalog.
  
  Se o conector suportar a criação pipeline baseada em interface de usuário, um administrador poderá criar a conexão e o pipeline simultaneamente, concluindo os passos desta página. No entanto, se os usuários que criam pipelines utilizarem a criação pipeline baseada em API ou não forem administradores, um administrador deverá primeiro criar a conexão no Catalog Explorer. Consulte Conectar para gerenciar fontes de ingestão.
- Se você planeja usar uma conexão existente: Você deve ter privilégios USE CONNECTION ou ALL PRIVILEGES no objeto de conexão.
- Você deve ter privilégios USE CATALOG no catálogo de destino.
- Você deve ter privilégios USE SCHEMA e CREATE TABLE em um esquema existente ou privilégios CREATE SCHEMA no catálogo de destino.
Para importar dados do Google Ads, você deve concluir as etapas descritas em Configurar OAuth para importação de dados do Google Ads.

Crie um pipeline de ingestão.

Databricks Asset Bundles
Databricks notebook

Esta tab descreve como implantar um pipeline de ingestão usando Declarative Automation Bundles. Os pacotes podem conter definições YAML de Job e tarefa, são gerenciados usando a CLI Databricks e podem ser compartilhados e executados em diferentes espaços de trabalho de destino (como desenvolvimento, teste e produção). Para mais informações, consulte O que são pacotes de automação declarativa?.

Crie um novo pacote usando a CLI do Databricks:
Bash
```
databricks bundle init
```
Adicione dois novos arquivos de recursos ao pacote:
- Um arquivo de definição de pipeline (por exemplo, resources/google_ads_pipeline.yml).
- Um arquivo de definição de trabalho que controla a frequência de ingestão de dados (por exemplo, resources/google_ads_job.yml).
Consulte pipeline.ingestion_definition e exemplos.
Implante o pipeline usando a CLI Databricks :
Bash
```
databricks bundle deploy
```

Exemplos

Databricks Asset Bundles
Databricks notebook

O seguinte arquivo de definição pipeline ingere todas as tabelas atuais e futuras de uma account:

YAML
resources:
  pipelines:
    pipeline_google_ads:
      name: <pipeline>
      catalog: <destination-catalog>
      target: <destination-schema>
      ingestion_definition:
        connection_name: <connection>
        objects:
          - schema:
              source_schema: <account-id>
              destination_catalog: <destination-catalog>
              destination_schema: <destination-schema>
              google_ads_options:
                manager_account_id: <manager-account-id>
                lookback_window_days: <lookback-window-days>
                sync_start_date: <sync-start-date>

O seguinte arquivo de definição pipeline seleciona tabelas específicas de uma account para ingestão:

YAML
resources:
  pipelines:
    pipeline_google_ads:
      name: <pipeline-name>
      catalog: <destination-catalog>
      target: <destination-schema>
      ingestion_definition:
        connection_name: <connection-name>
        objects:
          - table:
            source_schema: <customer-account-id>
            source_table: <table1>
            destination_catalog: <destination-catalog>
            destination_schema: <destination-schema>
            destination_table: <destination-table>
            google_ads_options:
              manager_account_id: <manager-account-id>
              lookback_window_days: <lookback-window-days>
              sync_start_date: <sync-start-date>
          - table:
            source_schema: <customer-account-id>
            source_table: table2
            destination_catalog: <destination-catalog>
            destination_schema: <destination-schema>
            destination_table: <destination-table>
            google_ads_options:
              manager_account_id: <manager-account-id>
              lookback_window_days: <lookback-window-days>
              sync_start_date: <sync-start-date>

Segue abaixo um exemplo de arquivo de definição de tarefa:

YAML
resources:
  jobs:
    google_ads_dab_job:
      name: google_ads_dab_job
      trigger:
        # Run this job every day, exactly one day from the last run
        # See https://docs.databricks.com/api/workspace/jobs/create#trigger
        periodic:
          interval: 1
          unit: DAYS
      email_notifications:
        on_failure:
          - <email-address>
      tasks:
        - task_key: refresh_pipeline
          pipeline_task:
            pipeline_id: <pipeline-id>

A seguinte especificação pipeline ingere todas as tabelas atuais e futuras de uma única account:

Python
pipeline_spec = {
  "name": <pipeline>,
  "catalog": "<destination-catalog>",
  "schema": "<destination-schema>",
  "ingestion_definition": {
    "connection_name": <connection>,
    "objects": [
      {
        "schema": {
          "source_schema": "<account-id>",
          "destination_catalog": "<destination-catalog>",
          "destination_schema": "<destination-schema>",
          "google_ads_options": {
            "manager_account_id": "<manager-account-id>",
            "lookback_window_days": <lookback-window-days>,
            "sync_start_date": "<sync-start-date>"
          }
        }
      }
    ]
  }
}

json_payload = json.dumps(pipeline_spec, indent=2)
create_pipeline(json_payload)

A seguinte especificação pipeline seleciona tabelas específicas de uma account para ingestão:

Python
pipeline_spec = {
  "name": <pipeline>,
  "catalog": "<destination-catalog>",
  "schema": "<destination-schema>",
  "ingestion_definition": {
    "connection_name": <connection>,
    "objects": [
      {
        "table": {
          "source_schema": "<customer-account-id>",
          "source_table": "<table1>",
          "destination_catalog": "<destination-catalog>",
          "destination_schema": "<destination-schema>",
          "destination_table": "<destination-table>",
          "google_ads_options": {
            "manager_account_id": "<manager-account-id>",
            "lookback_window_days": <lookback-window-days>,
            "sync_start_date": "<sync-start-date>"
          }
        }
      },
      {
        "table": {
          "source_schema": "<customer-account-id>",
          "source_table": "table2",
          "destination_catalog": "<destination-catalog>",
          "destination_schema": "<destination-schema>",
          "destination_table": "<destination-table>",
          "google_ads_options": {
            "manager_account_id": "<manager-account-id>",
            "lookback_window_days": <lookback-window-days>,
            "sync_start_date": "<sync-start-date>"
          }
        }
      }
    ]
  }
}

json_payload = json.dumps(pipeline_spec, indent=2)
create_pipeline(json_payload)

Padrões comuns

Para configurações avançadas pipeline , consulte Padrões comuns para gerenciar pipeline de ingestão.

Próximos passos

começar, programar e definir alerta em seu pipeline. Consulte Tarefa comum de manutenção pipeline.

Requisitos​

Crie um pipeline de ingestão.​

Exemplos​

Padrões comuns​

Próximos passos​

Recursos adicionais​

Requisitos

Crie um pipeline de ingestão.

Exemplos

Padrões comuns

Próximos passos

Recursos adicionais