Pular para o conteúdo principal

Compare os modos de detecção de arquivos do Auto Loader

O Auto Loader suporta dois modos de detecção de novos arquivos: listagem de diretórios e notificação de arquivos. O senhor pode alternar os modos de descoberta de arquivos entre as reinicializações da transmissão e ainda obter garantias de processamento de dados exatamente uma vez.

nota

O Auto Loader não garante a ordem em que os arquivos são descobertos ou processados, independentemente do modo de detecção de arquivos. Projete seu pipeline para lidar com a chegada de arquivos fora de ordem. Para obter orientações, consulte Lidar com dados fora de ordem.

Modo de lista de diretórios

No modo de listagem de diretórios, o Auto Loader identifica novos arquivos listando o diretório de entrada. O modo de listagem de diretórios permite que o senhor comece rapidamente Auto Loader transmissão sem nenhuma configuração de permissão além do acesso aos seus dados no armazenamento em nuvem.

No Databricks Runtime 9.1 e versões superiores, Auto Loader pode detectar automaticamente se os arquivos estão chegando ao seu armazenamento cloud em ordem lexical, reduzindo significativamente a quantidade de chamadas API necessárias para detectar novos arquivos. Consulte a seção "Configurar Auto Loader transmissões no modo de listagem de diretórios" para obter mais detalhes.

Modo de notificação de arquivo (recomendado)

O modo de notificação de arquivo aproveita a notificação de arquivo e o serviço de fila em sua infraestrutura de nuvem account. O Auto Loader pode configurar automaticamente um serviço de notificação e um serviço de fila que se inscrevem em eventos de arquivo do diretório de entrada. Se o senhor ativar eventos de arquivo no local externo que contém os arquivos em questão, não precisará fornecer permissões adicionais ao configurar a transmissão Auto Loader.

O modo de notificação de arquivos com eventos de arquivo é mais eficiente e escalável do que a listagem de diretórios. A Databricks recomenda o modo de notificação de arquivos usando eventos de arquivo em vez do modo de listagem de diretórios para a maioria das cargas de trabalho. Se você estiver usando o Auto Loader no modo de listagem de diretórios atualmente, a Databricks recomenda que você migre para o modo de notificação de arquivos usando eventos de arquivo para observar melhorias significativas de desempenho. Consulte Configurar a transmissão Auto Loader no modo de notificação de arquivos.

Armazenamento em nuvem suportado por modos

Esta tabela lista compute suportado para cada modo de detecção de arquivo, por provedor de armazenamento em nuvem.

Se o senhor migrar de um local externo ou de uma montagem DBFS para um volume do Unity Catalog, o Auto Loader continuará a oferecer garantias de exatamente uma vez.

Armazenamento em nuvem

Listagem de diretórios

Notificações de arquivo sem eventos de arquivo

Notificações de arquivo com eventos de arquivo

AWS S3

Todas as versões

Todas as versões

Databricks Runtime 14.3 LTS e acima

ADLS

Todas as versões

Todas as versões

Databricks Runtime 14.3 LTS e acima

GCS

Todas as versões

Todas as versões

Databricks Runtime 14.3 LTS e acima

Armazenamento de Blobs do Azure

Todas as versões

Todas as versões

Sem compatibilidade

DBFS

Todas as versões

Somente para pontos de montagem

Databricks Runtime 14.3 LTS e acima, se o DBFS ponto de montagem tiver um local externo definido em Unity Catalog

Unity Catalog volume

Databricks Runtime 13.3 LTS e acima

Sem compatibilidade

Databricks Runtime 14.3 LTS e acima