Acionar Job quando novos arquivos chegarem

O senhor pode usar acionadores de chegada de arquivos para acionar uma execução do Databricks Job quando novos arquivos chegarem a um local externo, como o Amazon S3, o armazenamento do Azure ou o Google Cloud Storage. O senhor pode usar esse recurso quando um Job programado pode ser ineficiente porque novos dados chegam em uma programação irregular.

Os acionadores de chegada de arquivos se esforçam ao máximo para verificar se há novos arquivos a cada minuto, embora isso possa ser afetado pelo desempenho do armazenamento em nuvem subjacente. Os acionadores de chegada de arquivos não incorrem em custos adicionais além dos custos do provedor de nuvem associados à listagem de arquivos no local de armazenamento.

Um acionador de chegada de arquivo pode ser configurado para monitorar a raiz de um local ou volume externo do Unity Catalog ou um subcaminho de um local ou volume externo. Por exemplo, para o volume raiz /Volumes/mycatalog/myschema/myvolume/ do Unity Catalog, os caminhos a seguir são válidos para um acionador de chegada de arquivo:

/Volumes/mycatalog/myschema/myvolume/
/Volumes/mycatalog/myschema/myvolume/mydirectory/

Requisitos

Os itens a seguir são necessários para usar acionadores de chegada de arquivo:

Limitações

  • Um máximo de cinquenta Job podem ser configurados com um gatilho de chegada de arquivo em um workspace do Databricks.

  • Um local de armazenamento configurado para um acionador de chegada de arquivos pode conter apenas até 10.000 arquivos. Os locais com mais arquivos não podem ser monitorados quanto à chegada de novos arquivos. Se o local de armazenamento configurado for um subcaminho de um local ou volume externo do Unity Catalog, o limite de 10.000 arquivos se aplicará ao subcaminho e não à raiz do local de armazenamento. Por exemplo, a raiz do local de armazenamento pode conter mais de 10.000 arquivos em seus subdiretórios, mas o subdiretório configurado não pode exceder o limite de 10.000 arquivos.

  • O caminho utilizado para uma trigger de chegada de arquivo não deve conter nenhuma tabela externa ou gerenciar localizações de catálogos e esquemas.

Adicionar um gatilho de chegada de arquivo

Para adicionar um gatilho de chegada de arquivo a um Job:

  1. Na barra lateral, clique em fluxo de trabalho.

  2. Na coluna Nome da tab Trabalhos, clique no nome do Job .

  3. No painel DetalhesJob à direita, clique em Adicionar acionador.

  4. Em Tipo de acionador, selecione Chegada do arquivo.

  5. Em Storage location (Local de armazenamento), digite a URL da raiz ou um subcaminho de um local externo do Unity Catalog ou a raiz ou um subcaminho de um volume do Unity Catalog a ser monitorado.

  6. (Opcional) Configurar opções avançadas:

    • Tempo mínimo entre acionamentos em segundos: o tempo mínimo de espera para acionar uma execução após a conclusão de uma execução anterior. Os arquivos que chegam nesse período acionam uma execução somente após o término do tempo de espera. Use esta configuração para controlar a frequência da criação da execução.

    • Aguardar após a última alteração em segundos: O tempo de espera para acionar uma execução após a chegada do arquivo. A chegada de outro arquivo nesse período reinicia o cronômetro. Essa configuração pode ser usada quando os arquivos chegam em lotes e o lote inteiro precisa ser processado depois que todos os arquivos tiverem chegado.

  7. Para validar a configuração, clique em Testar conexão.

  8. Clique em Salvar.

Receba notificações de acionadores de chegada de arquivo com falha

Para ser notificado se um acionador de chegada de arquivo não for avaliado, configure notificações de destino de sistema ou email em caso de falha Job . Consulte Adicionar email e notificações do sistema para eventos Job .