Compare os modos de detecção de arquivos do Auto Loader
O Auto Loader suporta dois modos de detecção de novos arquivos: listagem de diretórios e notificação de arquivos. O senhor pode alternar os modos de descoberta de arquivos entre as reinicializações da transmissão e ainda obter garantias de processamento de dados exatamente uma vez.
O Auto Loader não garante a ordem em que os arquivos são descobertos ou processados, independentemente do modo de detecção de arquivos. Projete seu pipeline para lidar com a chegada de arquivos fora de ordem. Para obter orientações, consulte Lidar com dados fora de ordem.
Modo de lista de diretórios
No modo de listagem de diretórios, o Auto Loader identifica novos arquivos listando o diretório de entrada. O modo de listagem de diretórios permite que o senhor comece rapidamente Auto Loader transmissão sem nenhuma configuração de permissão além do acesso aos seus dados no armazenamento em nuvem.
No Databricks Runtime 9.1 e versões superiores, Auto Loader pode detectar automaticamente se os arquivos estão chegando ao seu armazenamento cloud em ordem lexical, reduzindo significativamente a quantidade de chamadas API necessárias para detectar novos arquivos. Consulte a seção "Configurar Auto Loader transmissões no modo de listagem de diretórios" para obter mais detalhes.
Modo de notificação de arquivo (recomendado)
O modo de notificação de arquivo aproveita a notificação de arquivo e o serviço de fila em sua infraestrutura de nuvem account. O Auto Loader pode configurar automaticamente um serviço de notificação e um serviço de fila que se inscrevem em eventos de arquivo do diretório de entrada. Se o senhor ativar eventos de arquivo no local externo que contém os arquivos em questão, não precisará fornecer permissões adicionais ao configurar a transmissão Auto Loader.
O modo de notificação de arquivos com eventos de arquivo é mais eficiente e escalável do que a listagem de diretórios. A Databricks recomenda o modo de notificação de arquivos usando eventos de arquivo em vez do modo de listagem de diretórios para a maioria das cargas de trabalho. Se você estiver usando o Auto Loader no modo de listagem de diretórios atualmente, a Databricks recomenda que você migre para o modo de notificação de arquivos usando eventos de arquivo para observar melhorias significativas de desempenho. Consulte Configurar a transmissão Auto Loader no modo de notificação de arquivos.
Armazenamento em nuvem suportado por modos
Esta tabela lista compute suportado para cada modo de detecção de arquivo, por provedor de armazenamento em nuvem.
Se o senhor migrar de um local externo ou de uma montagem DBFS para um volume do Unity Catalog, o Auto Loader continuará a oferecer garantias de exatamente uma vez.
Armazenamento em nuvem | Listagem de diretórios | Notificações de arquivo sem eventos de arquivo | Notificações de arquivo com eventos de arquivo |
|---|---|---|---|
AWS S3 | Todas as versões | Todas as versões | Databricks Runtime 14.3 LTS e acima |
ADLS | Todas as versões | Todas as versões | Databricks Runtime 14.3 LTS e acima |
GCS | Todas as versões | Todas as versões | Databricks Runtime 14.3 LTS e acima |
Armazenamento de Blobs do Azure | Todas as versões | Todas as versões | Sem compatibilidade |
DBFS | Todas as versões | Somente para pontos de montagem | Databricks Runtime 14.3 LTS e acima, se o DBFS ponto de montagem tiver um local externo definido em Unity Catalog |
Unity Catalog volume | Databricks Runtime 13.3 LTS e acima | Sem compatibilidade | Databricks Runtime 14.3 LTS e acima |