Pular para o conteúdo principal

Perguntas frequentes sobre eventos de arquivo

Encontre respostas para perguntas frequentes sobre eventos de arquivo para locais externos.

O que são eventos de arquivo?

Eventos de arquivo permitem que a Databricks detecte arquivos novos ou alterados por meio de notificações na cloud, em vez de verificar repetidamente o armazenamento. Eventos de arquivo reduzem a latência de ingestão e os custos de listagem de armazenamento cloud e são ativados por padrão em novos locais externos.

Diagrama mostrando o processo de eventos de arquivo: uma fonte de arquivo publica arquivos para o armazenamento em cloud do cliente, que publica notificações para uma inscrição de evento e fila. O Unity Catalog autoriza o acesso à cloud do serviço gerenciado de eventos de arquivo. O serviço estabelece a conexão, obtém eventos de arquivo da fila, armazena metadados de arquivo em um banco de dados e lista objetos para consumidores do Auto Loader e Triggers.

Como funcionam os eventos de arquivo?

Ao ativar eventos de arquivo no modo Automático , a Databricks configura seu bucket de armazenamento na nuvem para enviar notificações de alteração de arquivo. O serviço de eventos de arquivo do Databricks lê metadados de caminho de arquivo do sistema de notificação para descobrir arquivos novos e alterados. Como uma rede de segurança, o serviço também realiza listagens completas de diretórios periodicamente para verificar se nenhum arquivo foi perdido.

A infraestrutura de notificação nunca transmite conteúdo de arquivos.

Quais recursos do Databricks usam eventos de arquivo?

Os seguintes recursos usam eventos de arquivo quando habilitados em um local externo:

  • Auto Loader : Detecta novos arquivos para ingestão incremental sem listagens de diretório onerosas. A partir do Databricks Runtime 18.1 e versões superiores, o Auto Loader usa automaticamente eventos de arquivo quando disponíveis (useManagedFileEvents = if_available).
  • Gatilhos de chegada de arquivo : Acionam automaticamente seu Job quando novos arquivos chegam, proporcionando melhor utilização de recurso e eficiência de custos, porque seu cluster está em execução somente quando há novos arquivos para processar. Os triggers de chegada de arquivo são significativamente mais escaláveis com eventos de arquivo ativados. Consulte Acionar jobs quando chegarem novos arquivos.
  • Triggers de atualização de tabelas : Começar automaticamente seu job com base nas atualizações em uma tabela. Triggers de atualização de tabela são significativamente mais escaláveis com eventos de arquivo ativados. Consulte Acionar jobs quando as tabelas de origem são atualizadas.

Como posso ativar eventos de arquivo em meus pipelines e jobs?

Primeiro, habilite os eventos de arquivo para seu local externo. Consulte Configurar eventos de arquivo para um local externo.

Se forem usados eventos de arquivo com a chegada de arquivo ou triggers de atualização de tabela, não será necessário tomar ações adicionais. O job se beneficia automaticamente de eventos de arquivo.

Além disso, se você utilizar o Auto Loader com o Databricks Runtime 18.1 ou acima, não precisará de nenhuma ação adicional. O pipeline se beneficia automaticamente de eventos de arquivo. Para versões anteriores do runtime, habilite os eventos de arquivo no pipeline:

Python
spark.readStream.option("cloudFiles.useManagedFileEvents", "true")...

E se eu não estiver usando o Auto Loader ou gatilhos hoje?

É possível desativar eventos de arquivo a qualquer momento e o Databricks limpa automaticamente os recursos de notificação. Databricks recomenda manter os eventos de arquivo ativados.

Posso cancelar a participação em eventos de arquivo?

Databricks habilita eventos de arquivo por default para novos locais externos porque eles reduzem custos e melhoram o desempenho para cargas de trabalho de ingestão.

Para criar uma localização externa sem eventos de arquivo:

  1. No Catalog Explorer, comece a criar uma nova localização externa.
  2. Se a credencial de armazenamento não tiver permissões de eventos de arquivo, será exibido um aviso de validação. Clique em "Forçar criação" para continuar.
  3. Após a criação, verifique se os eventos de arquivo estão desativados selecionando o local e desmarcando a configuração de eventos de arquivo.

Para desabilitar eventos de arquivo em um local externo existente, consulte Configurar eventos de arquivo para um local externo.

Passos seguintes