Compare os modos de detecção de arquivos do Auto Loader
O Auto Loader suporta dois modos de detecção de novos arquivos: listagem de diretórios e notificação de arquivos. O senhor pode alternar os modos de descoberta de arquivos entre as reinicializações da transmissão e ainda obter garantias de processamento de dados exatamente uma vez.
Modo de lista de diretórios
No modo de listagem de diretórios, o Auto Loader identifica novos arquivos listando o diretório de entrada. O modo de listagem de diretórios permite que o senhor comece rapidamente Auto Loader transmissão sem nenhuma configuração de permissão além do acesso aos seus dados no armazenamento em nuvem.
No Databricks Runtime 9.1 e no acima, o Auto Loader pode detectar automaticamente se os arquivos estão chegando com ordem lexical ao seu armazenamento em nuvem e reduzir significativamente a quantidade de chamadas ao API necessárias para detectar novos arquivos. Para obter mais detalhes, consulte Auto Loader transmissão com o modo de listagem de diretórios.
Modo de notificação de arquivo (recomendado)
O modo de notificação de arquivo aproveita a notificação de arquivo e o serviço de fila em sua infraestrutura de nuvem account. O Auto Loader pode configurar automaticamente um serviço de notificação e um serviço de fila que se inscrevem em eventos de arquivo do diretório de entrada. Se o senhor ativar eventos de arquivo no local externo que contém os arquivos em questão, não precisará fornecer permissões adicionais ao configurar a transmissão Auto Loader.
O modo de notificação de arquivos com eventos de arquivo é mais eficiente e escalável do que a listagem de diretórios. A Databricks recomenda o modo de notificação de arquivo usando eventos de arquivo em vez do modo de listagem de diretório para a maioria das cargas de trabalho. Se o senhor estiver usando o Auto Loader no modo de listagem de diretórios atualmente, a Databricks recomenda que migre para o modo de notificação de arquivos usando eventos mfile para obter melhorias significativas no desempenho. Consulte Configurar a transmissão Auto Loader no modo de notificação de arquivo.
Armazenamento em nuvem suportado por modos
Esta tabela lista compute suportado para cada modo de detecção de arquivo, por provedor de armazenamento em nuvem.
Se o senhor migrar de um local externo ou de uma montagem DBFS para um volume do Unity Catalog, o Auto Loader continuará a oferecer garantias de exatamente uma vez.
Armazenamento em nuvem | Listagem de diretórios | Notificações de arquivo sem eventos de arquivo | Notificações de arquivo com eventos de arquivo |
---|---|---|---|
AWS S3 | Todas as versões | Todas as versões | Databricks Runtime 14.3 LTS e acima |
ADLS | Todas as versões | Todas as versões | Databricks Runtime 14.3 LTS e acima |
GCS | Todas as versões | Todas as versões | Databricks Runtime 14.3 LTS e acima |
Armazenamento de Blobs do Azure | Todas as versões | Todas as versões | Sem compatibilidade |
DBFS | Todas as versões | Somente para pontos de montagem | Databricks Runtime 14.3 LTS e acima, se o DBFS ponto de montagem tiver um local externo definido em Unity Catalog |
Unity Catalog volume | Databricks Runtime 13.3 LTS e acima | Sem compatibilidade | Databricks Runtime 14.3 LTS e acima |