Pular para o conteúdo principal

Envio do Spark (legado, obsoleto, será removido em meados de 2026)

O tipo de tarefa **Spark Submit** é um padrão legado para configurar JARs como tarefas.

atenção

A tarefa Spark Submit está obsoleta e com remoção pendente em meados de 2026. O uso deste tipo de tarefa não é permitido para novos casos de uso e é fortemente desaconselhado para clientes existentes. A Databricks recomenda o uso da tarefa **JAR** em vez disso para cargas de trabalho JVM. Consulte tarefa JAR para Jobs.

Limitações

  • Você pode executar tarefas de envio do spark somente em novos clusters.
  • É preciso fazer upload do seu arquivo JAR para um local ou repositório Maven compatível com a sua configuração de compute. Consulte suporte a bibliotecas Java e Scala.
  • Não é possível acessar arquivos JAR armazenados em volumes.
  • O Spark-submit não oferece suporte ao autoscale de clusters. Para saber mais sobre dimensionamento automático, consulte Dimensionamento automático de clusters.
  • O Spark-submit não oferece suporte à rescisão automática de cluster. Aplicações Spark lançadas usando Spark-submit devem chamar explicitamente System.exit quando tiverem sido concluídas.
  • O Spark-submit não é compatível com os utilitários Databricks (dbutils) de referência. Para usar utilitários do Databricks, use tarefas JAR.
  • Se você estiver usando clusters habilitados para Unity Catalog, o envio de faísca é suportado apenas se os clusters usarem o modo de acesso dedicado. O modo de acesso padrão não é suportado. Consulte Modos de acesso.
  • Os Jobs de transmissão estructurada nunca devem ter o máximo de execuções concorrentes definidas como maior que 1. Os jobs de transmissão devem ser configurados para serem executados utilizando a expressão cron "* * * * * ?" (a cada minuto). Como uma tarefa de transmissão é executada continuamente, ela sempre deve ser a tarefa final de um job.

Configurar uma tarefa de envio do Spark

Adicione uma Spark Submit tarefa da tab **Tarefas** na interface de Jobs realizando o seguinte:

  1. Clique em Adicionar tarefa .

  2. Insira um nome no campo Nome da tarefa .

  3. No menu suspenso Tipo , selecione Spark Submit.

  4. Use **Compute** para configurar um cluster que dá suporte à lógica em sua tarefa.

  5. Utilize a caixa de texto Parâmetros para fornecer todos os argumentos e configurações necessárias para executar a sua tarefa como um array de strings JSON.

    • Os três primeiros argumentos são usados para identificar a classe principal a ser executada em um JAR em um caminho especificado, como no exemplo a seguir:

      JSON
      ["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
    • Não é possível substituir as configurações master, deploy-mode e executor-cores configuradas pelo Databricks

    • Use --jars e --py-files para adicionar bibliotecas dependentes de Java, Scala e Python.

    • Use --conf para definir as configurações do Spark.

    • Os argumentos --jars, --py-files, --files suportam caminhos DBFS e S3.

    • Por default, o Job de envio do Spark usa toda a memória disponível, excluindo a memória reservada para os serviços Databricks. Você pode definir --driver-memory e --executor-memory para um valor menor para deixar um espaço para uso fora da heap.

  6. Clique em Salvar tarefa .