Perguntas frequentes sobre eventos de arquivo
Encontre respostas para perguntas frequentes sobre eventos de arquivo para locais externos.
O que são eventos de arquivo?
Eventos de arquivo permitem que a Databricks detecte arquivos novos ou alterados por meio de notificações na cloud, em vez de verificar repetidamente o armazenamento. Eventos de arquivo reduzem a latência de ingestão e os custos de listagem de armazenamento cloud e são ativados por padrão em novos locais externos.

Como funcionam os eventos de arquivo?
Ao ativar eventos de arquivo no modo Automático , a Databricks configura seu bucket de armazenamento na nuvem para enviar notificações de alteração de arquivo. O serviço de eventos de arquivo do Databricks lê metadados de caminho de arquivo do sistema de notificação para descobrir arquivos novos e alterados. Como uma rede de segurança, o serviço também realiza listagens completas de diretórios periodicamente para verificar se nenhum arquivo foi perdido.
A infraestrutura de notificação nunca transmite conteúdo de arquivos.
Quais recursos do Databricks usam eventos de arquivo?
Os seguintes recursos usam eventos de arquivo quando habilitados em um local externo:
- Auto Loader : Detecta novos arquivos para ingestão incremental sem listagens de diretório onerosas. A partir do Databricks Runtime 18.1 e versões superiores, o Auto Loader usa automaticamente eventos de arquivo quando disponíveis (
useManagedFileEvents = if_available). - Gatilhos de chegada de arquivo : Acionam automaticamente seu Job quando novos arquivos chegam, proporcionando melhor utilização de recurso e eficiência de custos, porque seu cluster está em execução somente quando há novos arquivos para processar. Os triggers de chegada de arquivo são significativamente mais escaláveis com eventos de arquivo ativados. Consulte Acionar jobs quando chegarem novos arquivos.
- Triggers de atualização de tabelas : Começar automaticamente seu job com base nas atualizações em uma tabela. Triggers de atualização de tabela são significativamente mais escaláveis com eventos de arquivo ativados. Consulte Acionar jobs quando as tabelas de origem são atualizadas.
Como posso ativar eventos de arquivo em meus pipelines e jobs?
Primeiro, habilite os eventos de arquivo para seu local externo. Consulte Configurar eventos de arquivo para um local externo.
Se forem usados eventos de arquivo com a chegada de arquivo ou triggers de atualização de tabela, não será necessário tomar ações adicionais. O job se beneficia automaticamente de eventos de arquivo.
Além disso, se você utilizar o Auto Loader com o Databricks Runtime 18.1 ou acima, não precisará de nenhuma ação adicional. O pipeline se beneficia automaticamente de eventos de arquivo. Para versões anteriores do runtime, habilite os eventos de arquivo no pipeline:
spark.readStream.option("cloudFiles.useManagedFileEvents", "true")...
E se eu não estiver usando o Auto Loader ou gatilhos hoje?
É possível desativar eventos de arquivo a qualquer momento e o Databricks limpa automaticamente os recursos de notificação. Databricks recomenda manter os eventos de arquivo ativados.
Posso cancelar a participação em eventos de arquivo?
Databricks habilita eventos de arquivo por default para novos locais externos porque eles reduzem custos e melhoram o desempenho para cargas de trabalho de ingestão.
Para criar uma localização externa sem eventos de arquivo:
- Catalog Explorer
- API
- No Catalog Explorer, comece a criar uma nova localização externa.
- Se a credencial de armazenamento não tiver permissões de eventos de arquivo, será exibido um aviso de validação. Clique em "Forçar criação" para continuar.
- Após a criação, verifique se os eventos de arquivo estão desativados selecionando o local e desmarcando a configuração de eventos de arquivo.
Definir enable_file_events como false na solicitação de criação de localização externa.
Para desabilitar eventos de arquivo em um local externo existente, consulte Configurar eventos de arquivo para um local externo.