Pular para o conteúdo principal

Compare os modos de detecção de arquivos do Auto Loader

O Auto Loader suporta dois modos de detecção de novos arquivos: listagem de diretórios e notificação de arquivos. O senhor pode alternar os modos de descoberta de arquivos entre as reinicializações da transmissão e ainda obter garantias de processamento de dados exatamente uma vez.

Modo de lista de diretórios

No modo de listagem de diretórios, o Auto Loader identifica novos arquivos listando o diretório de entrada. O modo de listagem de diretórios permite que o senhor comece rapidamente Auto Loader transmissão sem nenhuma configuração de permissão além do acesso aos seus dados no armazenamento em nuvem.

No Databricks Runtime 9.1 e no acima, o Auto Loader pode detectar automaticamente se os arquivos estão chegando com ordem lexical ao seu armazenamento em nuvem e reduzir significativamente a quantidade de chamadas ao API necessárias para detectar novos arquivos. Consulte O que é o modo de listagem de diretórios do Auto Loader? para obter mais detalhes.

Modo de notificação de arquivo

O modo de notificação de arquivo aproveita a notificação de arquivo e o serviço de fila em sua infraestrutura de nuvem account. O Auto Loader pode configurar automaticamente um serviço de notificação e um serviço de fila que se inscrevem em eventos de arquivo do diretório de entrada.

O modo de notificação de arquivos é mais eficiente e escalável para grandes diretórios de entrada ou um grande volume de arquivos, mas requer permissões adicionais na nuvem para ser configurado. Para obter mais informações, consulte O que é o modo de notificação de arquivo Auto Loader?

Armazenamento em nuvem suportado por modos

A disponibilidade desses modos está listada abaixo.

Se o senhor migrar de um local externo ou de uma montagem DBFS para um volume do Unity Catalog, o Auto Loader continuará a oferecer garantias de exatamente uma vez.

Armazenamento em nuvem

Listagem de diretórios

Notificações de arquivo

AWS S3

Todas as versões

Todas as versões

ADLS

Todas as versões

Todas as versões

GCS

Todas as versões

Databricks Runtime 9.1e acima

Armazenamento de Blobs do Azure

Todas as versões

Todas as versões

DBFS

Todas as versões

Somente para pontos de montagem

Unity Catalog volume

Databricks Runtime 13.3 LTS e acima

Sem compatibilidade