Compare os modos de detecção de arquivos do Auto Loader

O Auto Loader suporta dois modos de detecção de novos arquivos: listagem de diretórios e notificação de arquivos. O senhor pode alternar os modos de descoberta de arquivos entre as reinicializações da transmissão e ainda obter garantias de processamento de dados exatamente uma vez.

Modo de lista de diretórios

No modo de listagem de diretórios, o Auto Loader identifica novos arquivos listando o diretório de entrada. O modo de listagem de diretórios permite que o senhor comece rapidamente Auto Loader transmissão sem nenhuma configuração de permissão além do acesso aos seus dados no armazenamento cloud.

No Databricks Runtime 9.1e acima, o Auto Loader pode detectar automaticamente se os arquivos estão chegando com ordenação léxica ao seu armazenamento cloud e reduzir significativamente a quantidade de chamadas de API necessárias para detectar novos arquivos. Consulte O que é o modo de listagem de diretórios do Auto Loader? para mais detalhes.

Modo de notificação de arquivo

O modo de notificação de arquivo aproveita a notificação de arquivo e o serviço de fila em sua infraestrutura cloud account. O Auto Loader pode configurar automaticamente um serviço de notificação e um serviço de fila que se inscrevem em eventos de arquivo do diretório de entrada.

O modo de notificação de arquivo é mais eficiente e dimensionável para grandes diretórios de entrada ou um grande volume de arquivos, mas requer a configuração de permissões adicionais no site cloud. Para obter mais informações, consulte O que é o modo de notificação de arquivo Auto Loader?

Armazenamento em nuvem compatível com os modos

A disponibilidade desses modos está listada abaixo.

Se o senhor migrar de um local externo ou de uma montagem DBFS para um volume do Unity Catalog, o Auto Loader continuará a oferecer garantias de exatamente uma vez.

Armazenamento em nuvem

Listagem de diretórios

Notificações de arquivo

AWS S3

Todas as versões

Todas as versões

ADLS Gen2

Todas as versões

Todas as versões

GCS

Todas as versões

Databricks Runtime 9.1e acima

Armazenamento de Blobs do Azure

Todas as versões

Todas as versões

ADLS Gen1

Todas as versões

Sem compatibilidade

DBFS

Todas as versões

Somente para pontos de montagem

Unity Catalog volume

Databricks Runtime 13.3 LTS e acima

Sem compatibilidade