Comparar os modos de detecção de arquivo Auto Loader

O Auto Loader oferece suporte a dois modos de detecção de novos arquivos: listagem de diretórios e notificação de arquivos. Você pode alternar os modos de descoberta de arquivos nas reinicializações da transmissão e ainda obter garantias de processamento de dados exatamente uma vez.

Modo de listagem de diretório

No modo de listagem de diretórios, o Auto Loader identifica novos arquivos listando o diretório de entrada. O modo de listagem de diretório permite que você comece rapidamente a transmissão Auto Loader sem nenhuma configuração de permissão além do acesso aos seus dados no armazenamento cloud .

No Databricks Runtime 9.1e acima, o Auto Loader pode detectar automaticamente se os arquivos estão chegando com ordenação léxica ao seu armazenamento cloud e reduzir significativamente a quantidade de chamadas de API necessárias para detectar novos arquivos. Consulte O que é o modo de listagem de diretórios do Auto Loader? para mais detalhes.

Modo de notificação de arquivo

O modo de notificação de arquivo aproveita a notificação de arquivo e os serviços de fila em sua account de infraestrutura cloud. O Auto Loader pode configurar automaticamente um serviço de notificação e um serviço de fila que se inscreve em eventos de arquivo do diretório de entrada.

O modo de notificação de arquivo é mais eficaz e escalável para grandes diretórios de entrada ou um grande volume de arquivos, mas requer permissões cloud adicionais para configurar. Para obter mais informações, consulte O que é o modo de notificação de arquivo Auto Loader ?.

Armazenamento em nuvem suportado por modos

A disponibilidade para esses modos está listada abaixo.

Se você migrar de um local externo ou de uma montagem DBFS para um volume do Unity Catalog, o Auto Loader continua a fornecer garantias únicas.

armazenamento cloud

Listagem de diretório

Notificações de arquivo

AWS S3

Todas versões

Todas versões

ADLS Gen2

Todas versões

Todas versões

GCS

Todas versões

Databricks Runtime 9.1e acima

Armazenamento Azure Blob

Todas versões

Todas versões

ADLS Gen1

Todas versões

sem suporte

DBFS

Todas versões

Apenas para pontos de montagem

Volume Unity Catalog

Databricks Runtime 13.3 LTS e acima

sem suporte