Ingerir dados de anúncios do TikTok no Databricks
Beta
Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.
Aprenda como criar um pipeline de gerenciamento para ingerir dados de anúncios do TikTok no Databricks.
Requisitos
Para criar um pipeline de ingestão, você deve atender aos seguintes requisitos:
-
Seu workspace deve estar habilitado para o Unity Catalog.
-
compute sem servidor (serverless compute) deve estar habilitado para seu workspace. Consulte os requisitos compute sem servidor.
-
Se você planeja criar uma nova conexão: Você deve ter privilégios
CREATE CONNECTIONno metastore.Se o conector suportar a criação pipeline baseada em interface de usuário, um administrador poderá criar a conexão e o pipeline simultaneamente, concluindo os passos desta página. No entanto, se os usuários que criam pipelines utilizarem a criação pipeline baseada em API ou não forem administradores, um administrador deverá primeiro criar a conexão no Catalog Explorer. Consulte Conectar para gerenciar fontes de ingestão.
-
Se você planeja usar uma conexão existente: Você deve ter privilégios
USE CONNECTIONouALL PRIVILEGESno objeto de conexão. -
Você deve ter privilégios
USE CATALOGno catálogo de destino. -
Você deve ter privilégios
USE SCHEMAeCREATE TABLEem um esquema existente ou privilégiosCREATE SCHEMAno catálogo de destino.
Para importar dados de anúncios do TikTok, você precisa configurar a autenticação no Databricks. Consulte Configurar anúncios do TikTok para gerenciar a ingestão.
Crie um pipeline de ingestão.
- Databricks Asset Bundles
- Databricks notebook
Esta tab descreve como implantar um pipeline de ingestão usando Databricks Ativo Bundles. Os pacotes podem conter definições YAML de Job e tarefa, são gerenciados usando a CLI Databricks e podem ser compartilhados e executados em diferentes espaços de trabalho de destino (como desenvolvimento, teste e produção). Para mais informações, consulte O que são pacotes Databricks ativos?.
-
Crie um novo pacote usando a CLI do Databricks:
Bashdatabricks bundle init -
Adicione dois novos arquivos de recursos ao pacote:
- Um arquivo de definição de pipeline (
resources/tiktok_ads_pipeline.yml). - Um arquivo de fluxo de trabalho que controla a frequência de ingestão de dados (
resources/tiktok_ads_job.yml).
Consulte Valores a serem modificados e Bundle arquivo de recurso padrão.
- Um arquivo de definição de pipeline (
-
Implante o pipeline usando a CLI Databricks :
Bashdatabricks bundle deploy
- Importe o seguinte Notebook para o seu workspace Databricks :
-
Deixe as células um e dois como estão. Não modifique.
-
Modifique a célula três com os detalhes da configuração do seu pipeline. Consulte a seção "Valores a serem modificados".
-
Opcionalmente, configure as definições avançadas do pipeline. Consulte Padrões comuns para gerenciar o pipeline de ingestão.
-
Clique em Executar tudo .
Valores a serem modificados
Valor | Descrição |
|---|---|
| Um nome único para o pipeline. |
| O nome da conexão que você criou nos anúncios do TikTok. |
| O ID do anunciante para o qual você deseja coletar dados. |
| O nome da tabela que você deseja importar. Para obter uma lista das tabelas compatíveis, consulte a referência do conector do TikTok Ads. |
| O nome do catálogo onde você deseja armazenar os dados ingeridos. |
| O nome do esquema onde você deseja armazenar os dados ingeridos. |
| (Opcional) O nome da tabela de destino. Caso não seja fornecido, o conector utiliza o nome da tabela de origem. |
Arquivo de recurso de pacote
Para implantações de pacotes ativos Databricks , use o seguinte padrão para seu arquivo de definição pipeline e arquivo de fluxo de trabalho. Para configurações avançadas pipeline , consulte Padrões comuns para gerenciar pipeline de ingestão.
Arquivo de definição de pipeline
resources:
pipelines:
tiktok_ads_pipeline:
name: tiktok_ads_pipeline
ingestion_definition:
connection_name: tiktok_ads_connection
objects:
- table:
source_schema: '<your_advertiser_id>'
source_table: 'campaign_report_daily'
destination_catalog: 'main'
destination_schema: 'tiktok_ads_data'
destination_table: 'campaign_report_daily'
Arquivo de fluxo de trabalho
resources:
jobs:
tiktok_ads_job:
name: tiktok_ads_job
schedule:
quartz_cron_expression: '0 0 0 * * ?'
timezone_id: 'UTC'
tasks:
- task_key: tiktok_ads_ingestion
pipeline_task:
pipeline_id: ${resources.pipelines.tiktok_ads_pipeline.id}