Pular para o conteúdo principal

Compare os modos de detecção de arquivos do Auto Loader

O Auto Loader suporta dois modos de detecção de novos arquivos: listagem de diretórios e notificação de arquivos. O senhor pode alternar os modos de descoberta de arquivos entre as reinicializações da transmissão e ainda obter garantias de processamento de dados exatamente uma vez.

Modo de lista de diretórios

No modo de listagem de diretórios, o Auto Loader identifica novos arquivos listando o diretório de entrada. O modo de listagem de diretórios permite que o senhor comece rapidamente Auto Loader transmissão sem nenhuma configuração de permissão além do acesso aos seus dados no armazenamento em nuvem.

No Databricks Runtime 9.1 e no acima, o Auto Loader pode detectar automaticamente se os arquivos estão chegando com ordem lexical ao seu armazenamento em nuvem e reduzir significativamente a quantidade de chamadas ao API necessárias para detectar novos arquivos. Para obter mais detalhes, consulte Auto Loader transmissão com o modo de listagem de diretórios.

Modo de notificação de arquivo (recomendado)

O modo de notificação de arquivo aproveita a notificação de arquivo e o serviço de fila em sua infraestrutura de nuvem account. O Auto Loader pode configurar automaticamente um serviço de notificação e um serviço de fila que se inscrevem em eventos de arquivo do diretório de entrada. Se o senhor ativar eventos de arquivo no local externo que contém os arquivos em questão, não precisará fornecer permissões adicionais ao configurar a transmissão Auto Loader.

O modo de notificação de arquivos com eventos de arquivo é mais eficiente e escalável do que a listagem de diretórios. A Databricks recomenda o modo de notificação de arquivo usando eventos de arquivo em vez do modo de listagem de diretório para a maioria das cargas de trabalho. Se o senhor estiver usando o Auto Loader no modo de listagem de diretórios atualmente, a Databricks recomenda que migre para o modo de notificação de arquivos usando eventos mfile para obter melhorias significativas no desempenho. Consulte Configurar a transmissão Auto Loader no modo de notificação de arquivo.

Armazenamento em nuvem suportado por modos

Esta tabela lista compute suportado para cada modo de detecção de arquivo, por provedor de armazenamento em nuvem.

Se o senhor migrar de um local externo ou de uma montagem DBFS para um volume do Unity Catalog, o Auto Loader continuará a oferecer garantias de exatamente uma vez.

Armazenamento em nuvem

Listagem de diretórios

Notificações de arquivo sem eventos de arquivo

Notificações de arquivo com eventos de arquivo

AWS S3

Todas as versões

Todas as versões

Databricks Runtime 14.3 LTS e acima

ADLS

Todas as versões

Todas as versões

Databricks Runtime 14.3 LTS e acima

GCS

Todas as versões

Todas as versões

Databricks Runtime 14.3 LTS e acima

Armazenamento de Blobs do Azure

Todas as versões

Todas as versões

Sem compatibilidade

DBFS

Todas as versões

Somente para pontos de montagem

Databricks Runtime 14.3 LTS e acima, se o DBFS ponto de montagem tiver um local externo definido em Unity Catalog

Unity Catalog volume

Databricks Runtime 13.3 LTS e acima

Sem compatibilidade

Databricks Runtime 14.3 LTS e acima