Ingerir dados dos Logs do Zoom
Beta
Este recurso está em Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Pré-visualizações . Consulte Gerenciar prévias do Databricks.
Esta página mostra como criar um pipeline de ingestão de Logs do Zoom gerenciado usando o LakeFlow Connect.
Requisitos
-
Para criar um pipeline de ingestão, você deve primeiro atender aos seguintes requisitos:
-
Seu workspace deve estar habilitado para o Unity Catalog.
-
O compute serverless deve ser habilitado para seu workspace. Consulte Requisitos de computação serverless.
-
Para criar uma nova conexão, é preciso ter os privilégios
CREATE CONNECTIONno metastore. Consulte Gerenciar privilégios no Unity Catalog.Se o conector suportar a criação de pipelines baseada na IU, um administrador poderá criar a conexão e o pipeline simultaneamente, ao concluir os passos nesta página. No entanto, se os usuários que criam pipelines usam a autoria de pipeline baseada em API ou são usuários não administradores, um administrador deve primeiro criar a conexão no Catalog Explorer. Consulte Conectar-se a fontes de ingestão gerenciadas.
-
Para usar uma conexão existente: é preciso ter os privilégios
USE CONNECTIONouALL PRIVILEGESno objeto de conexão. -
Você deve ter privilégios
USE CATALOGno catálogo de destino. -
É necessário ter os privilégios
USE SCHEMAeCREATE TABLEem um esquema existente ou os privilégiosCREATE SCHEMAno catálogo de destino.
-
-
Para ingerir dados do Zoom, você deve primeiro configurar a autenticação do Databricks e criar uma conexão. Consulte Configurar a autenticação para o Zoom e Criar uma conexão de Logs do Zoom.
Criar pipeline de ingestão
Para obter a lista de tabelas de origem compatíveis, consulte Tabelas de origem compatíveis.
- Databricks UI
- Declarative Automation Bundles
- Databricks notebook
- Na barra lateral do workspace do Databricks, clique em Ingestão de dados .
- Na página **Adicionar dados**, em **conectores Databricks**, clique em **Logs do Zoom**.
- Na página Conexão do assistente de ingestão, selecione a conexão que armazena suas credenciais do Zoom. Se você tem o privilégio
CREATE CONNECTIONno metastore, você pode clicar emCriar conexão para criar uma conexão com as credenciais de Configurar autenticação no Zoom.
- Clique em Avançar .
- Na página de **Configuração de ingestão**, insira um nome para o pipeline.
- Selecione um catálogo e um esquema onde os logs de eventos serão gravados. Se tiver os privilégios
USE CATALOGeCREATE SCHEMAno catálogo, pode clicar emCriar esquema no menu suspenso para criar um esquema.
- Clique em **Criar pipeline e continuar**.
- Na **Página de Origem**, selecione as tabelas para ingestão.
- Clique em Salvar e continuar .
- Na página Destino , selecione um catálogo e um esquema para carregar dados. Se tiver os privilégios
USE CATALOGeCREATE SCHEMAno catálogo, pode clicar emCriar esquema no menu suspenso para criar um esquema.
- Clique em Salvar e continuar .
- (Opcional) Na página Cronogramas e notificações , clique em
Crie um agendamento . Defina a frequência para fazer o refresh das tabelas de destino.
- (Opcional) Clique em
Adicionar notificação para configurar notificações por email para sucesso ou falha da operação do pipeline e, em seguida, clique em Salvar e executar pipeline .
Use Pacotes de Automação Declarativa para gerenciar pipelines de Logs do Zoom como código. Os pacotes podem conter definições YAML de Jobs e tarefas, são gerenciados usando a CLI do Databricks e podem ser compartilhados e executados em diferentes workspaces de destino (como desenvolvimento, preparo e produção). Para obter mais informações, consulte O que são Pacotes de Automação Declarativa?.
-
Crie um pacote utilizando a CLI do Databricks:
Bashdatabricks bundle init -
Adicione dois novos arquivos de recurso ao pacote:
- Um arquivo de definição de pipeline (por exemplo,
resources/zoom_logs_pipeline.yml). Veja pipeline.definição_de_ingestão e Exemplos. - Um arquivo de definição de Job que controla a frequência da ingestão de dados (por exemplo,
resources/zoom_logs_job.yml).
- Um arquivo de definição de pipeline (por exemplo,
-
Implante o pipeline usando a CLI do Databricks:
Bashdatabricks bundle deploy
- Importe o seguinte notebook em seu workspace do Databricks:
-
Deixe as células um e dois como estão. Não modifique.
-
Modificar a célula três com os detalhes da configuração do pipeline. Veja pipeline.ingestion_definition e Exemplos.
-
Configure as configurações avançadas do pipeline (opcional). Consulte Padrões comuns para pipelines de ingestão gerenciados.
-
Clique em Executar tudo .
Exemplos
O conector de Zoom Logs disponibiliza duas tabelas de origem (activity_logs e operation_logs) no esquema de origem default. Ingerir tabelas individuais ou o esquema inteiro.
Ingerir tabelas específicas
Use esta opção para ingerir um subconjunto específico de tabelas, ou para personalizar a nomenclatura de destino por tabela.
resources:
pipelines:
zoom_logs_pipeline:
name: zoom_logs_pipeline
catalog: 'main'
target: 'zoom_logs_data'
ingestion_definition:
connection_name: zoom_logs_connection
objects:
- table:
source_schema: 'default'
source_table: 'activity_logs'
destination_catalog: 'main'
destination_schema: 'zoom_logs_data'
destination_table: 'activity_logs'
- table:
source_schema: 'default'
source_table: 'operation_logs'
destination_catalog: 'main'
destination_schema: 'zoom_logs_data'
destination_table: 'operation_logs'
Ingerir o esquema inteiro
Use esta opção para ingerir todas as tabelas de origem dos logs do Zoom em um único esquema de destino com uma declaração.
resources:
pipelines:
zoom_logs_pipeline:
name: zoom_logs_pipeline
catalog: 'main'
target: 'zoom_logs_data'
ingestion_definition:
connection_name: zoom_logs_connection
objects:
- schema:
source_schema: 'default'
destination_catalog: 'main'
destination_schema: 'zoom_logs_data'
Arquivo de definição de Job de Pacotes de Automação Declarativa
O seguinte é um exemplo de arquivo de definição de job para uso com Pacotes de Automação Declarativa. O Job é executado diariamente.
resources:
jobs:
zoom_logs_job:
name: zoom_logs_job
schedule:
quartz_cron_expression: '0 0 0 * * ?'
timezone_id: 'UTC'
tasks:
- task_key: zoom_logs_ingestion
pipeline_task:
pipeline_id: ${resources.pipelines.zoom_logs_pipeline.id}
Padrões comuns
Para configurações avançadas de pipeline, consulte Padrões comuns para pipelines de ingestão gerenciados.
Passos seguintes
Iniciar, programar e definir alertas no seu pipeline. Veja Tarefas comuns de manutenção de pipelines.