Comparar os modos de detecção de arquivo Auto Loader
O Auto Loader oferece suporte a dois modos de detecção de novos arquivos: listagem de diretórios e notificação de arquivos. Você pode alternar os modos de descoberta de arquivos nas reinicializações da transmissão e ainda obter garantias de processamento de dados exatamente uma vez.
Modo de listagem de diretório
No modo de listagem de diretórios, o Auto Loader identifica novos arquivos listando o diretório de entrada. O modo de listagem de diretório permite que você comece rapidamente a transmissão Auto Loader sem nenhuma configuração de permissão além do acesso aos seus dados no armazenamento cloud .
No Databricks Runtime 9.1e acima, o Auto Loader pode detectar automaticamente se os arquivos estão chegando com ordenação léxica ao seu armazenamento cloud e reduzir significativamente a quantidade de chamadas de API necessárias para detectar novos arquivos. Consulte O que é o modo de listagem de diretórios do Auto Loader? para mais detalhes.
Modo de notificação de arquivo
O modo de notificação de arquivo aproveita a notificação de arquivo e os serviços de fila em sua account de infraestrutura cloud. O Auto Loader pode configurar automaticamente um serviço de notificação e um serviço de fila que se inscreve em eventos de arquivo do diretório de entrada.
O modo de notificação de arquivo é mais eficaz e escalável para grandes diretórios de entrada ou um grande volume de arquivos, mas requer permissões cloud adicionais para configurar. Para obter mais informações, consulte O que é o modo de notificação de arquivo Auto Loader ?.
Armazenamento em nuvem suportado por modos
A disponibilidade para esses modos está listada abaixo.
Se você migrar de um local externo ou de uma montagem DBFS para um volume do Unity Catalog, o Auto Loader continua a fornecer garantias únicas.
armazenamento cloud |
Listagem de diretório |
Notificações de arquivo |
---|---|---|
AWS S3 |
Todas versões |
Todas versões |
ADLS Gen2 |
Todas versões |
Todas versões |
GCS |
Todas versões |
Databricks Runtime 9.1e acima |
Armazenamento Azure Blob |
Todas versões |
Todas versões |
ADLS Gen1 |
Todas versões |
sem suporte |
DBFS |
Todas versões |
Apenas para pontos de montagem |
Volume Unity Catalog |
Databricks Runtime 13.3 LTS e acima |
sem suporte |