Compare os modos de detecção de arquivos do Auto Loader
O Auto Loader suporta dois modos de detecção de novos arquivos: listagem de diretórios e notificação de arquivos. O senhor pode alternar os modos de descoberta de arquivos entre as reinicializações da transmissão e ainda obter garantias de processamento de dados exatamente uma vez.
Modo de lista de diretórios
No modo de listagem de diretórios, o Auto Loader identifica novos arquivos listando o diretório de entrada. O modo de listagem de diretórios permite que o senhor comece rapidamente Auto Loader transmissão sem nenhuma configuração de permissão além do acesso aos seus dados no armazenamento em nuvem.
No Databricks Runtime 9.1 e no acima, o Auto Loader pode detectar automaticamente se os arquivos estão chegando com ordem lexical ao seu armazenamento em nuvem e reduzir significativamente a quantidade de chamadas ao API necessárias para detectar novos arquivos. Consulte O que é o modo de listagem de diretórios do Auto Loader? para obter mais detalhes.
Modo de notificação de arquivo
O modo de notificação de arquivo aproveita a notificação de arquivo e o serviço de fila em sua infraestrutura de nuvem account. O Auto Loader pode configurar automaticamente um serviço de notificação e um serviço de fila que se inscrevem em eventos de arquivo do diretório de entrada.
O modo de notificação de arquivos é mais eficiente e escalável para grandes diretórios de entrada ou um grande volume de arquivos, mas requer permissões adicionais na nuvem para ser configurado. Para obter mais informações, consulte O que é o modo de notificação de arquivo Auto Loader?
Armazenamento em nuvem suportado por modos
A disponibilidade desses modos está listada abaixo.
Se o senhor migrar de um local externo ou de uma montagem DBFS para um volume do Unity Catalog, o Auto Loader continuará a oferecer garantias de exatamente uma vez.
Armazenamento em nuvem | Listagem de diretórios | Notificações de arquivo |
---|---|---|
AWS S3 | Todas as versões | Todas as versões |
ADLS | Todas as versões | Todas as versões |
GCS | Todas as versões | Databricks Runtime 9.1e acima |
Armazenamento de Blobs do Azure | Todas as versões | Todas as versões |
DBFS | Todas as versões | Somente para pontos de montagem |
Unity Catalog volume | Databricks Runtime 13.3 LTS e acima | Sem compatibilidade |