Pular para o conteúdo principal

Ingerir dados de anúncios do TikTok no Databricks

info

Beta

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.

Aprenda como criar um pipeline de gerenciamento para ingerir dados de anúncios do TikTok no Databricks.

Requisitos

Para criar um pipeline de ingestão, você deve atender aos seguintes requisitos:

  • Seu workspace deve estar habilitado para o Unity Catalog.

  • compute sem servidor (serverless compute) deve estar habilitado para seu workspace. Consulte os requisitos compute sem servidor.

  • Se você planeja criar uma nova conexão: Você deve ter privilégios CREATE CONNECTION no metastore.

    Se o conector suportar a criação pipeline baseada em interface de usuário, um administrador poderá criar a conexão e o pipeline simultaneamente, concluindo os passos desta página. No entanto, se os usuários que criam pipelines utilizarem a criação pipeline baseada em API ou não forem administradores, um administrador deverá primeiro criar a conexão no Catalog Explorer. Consulte Conectar para gerenciar fontes de ingestão.

  • Se você planeja usar uma conexão existente: Você deve ter privilégios USE CONNECTION ou ALL PRIVILEGES no objeto de conexão.

  • Você deve ter privilégios USE CATALOG no catálogo de destino.

  • Você deve ter privilégios USE SCHEMA e CREATE TABLE em um esquema existente ou privilégios CREATE SCHEMA no catálogo de destino.

Para importar dados de anúncios do TikTok, você precisa configurar a autenticação no Databricks. Consulte Configurar anúncios do TikTok para gerenciar a ingestão.

Crie um pipeline de ingestão.

Esta tab descreve como implantar um pipeline de ingestão usando Databricks Ativo Bundles. Os pacotes podem conter definições YAML de Job e tarefa, são gerenciados usando a CLI Databricks e podem ser compartilhados e executados em diferentes espaços de trabalho de destino (como desenvolvimento, teste e produção). Para mais informações, consulte O que são pacotes Databricks ativos?.

  1. Crie um novo pacote usando a CLI do Databricks:

    Bash
    databricks bundle init
  2. Adicione dois novos arquivos de recursos ao pacote:

    • Um arquivo de definição de pipeline (resources/tiktok_ads_pipeline.yml).
    • Um arquivo de fluxo de trabalho que controla a frequência de ingestão de dados (resources/tiktok_ads_job.yml).

    Consulte Valores a serem modificados e Bundle arquivo de recurso padrão.

  3. Implante o pipeline usando a CLI Databricks :

    Bash
    databricks bundle deploy

Valores a serem modificados

Valor

Descrição

name

Um nome único para o pipeline.

connection_name

O nome da conexão que você criou nos anúncios do TikTok.

source_schema

O ID do anunciante para o qual você deseja coletar dados.

source_table

O nome da tabela que você deseja importar. Para obter uma lista das tabelas compatíveis, consulte a referência do conector do TikTok Ads.

destination_catalog

O nome do catálogo onde você deseja armazenar os dados ingeridos.

destination_schema

O nome do esquema onde você deseja armazenar os dados ingeridos.

destination_table

(Opcional) O nome da tabela de destino. Caso não seja fornecido, o conector utiliza o nome da tabela de origem.

Arquivo de recurso de pacote

Para implantações de pacotes ativos Databricks , use o seguinte padrão para seu arquivo de definição pipeline e arquivo de fluxo de trabalho. Para configurações avançadas pipeline , consulte Padrões comuns para gerenciar pipeline de ingestão.

Arquivo de definição de pipeline

YAML
resources:
pipelines:
tiktok_ads_pipeline:
name: tiktok_ads_pipeline
ingestion_definition:
connection_name: tiktok_ads_connection
objects:
- table:
source_schema: '<your_advertiser_id>'
source_table: 'campaign_report_daily'
destination_catalog: 'main'
destination_schema: 'tiktok_ads_data'
destination_table: 'campaign_report_daily'

Arquivo de fluxo de trabalho

YAML
resources:
jobs:
tiktok_ads_job:
name: tiktok_ads_job
schedule:
quartz_cron_expression: '0 0 0 * * ?'
timezone_id: 'UTC'
tasks:
- task_key: tiktok_ads_ingestion
pipeline_task:
pipeline_id: ${resources.pipelines.tiktok_ads_pipeline.id}