Envio do Spark (legado, obsoleto, será removido em meados de 2026)

O tipo de tarefa **Spark Submit** é um padrão legado para configurar JARs como tarefas.

atenção

A tarefa Spark Submit está obsoleta e com remoção pendente em meados de 2026. O uso deste tipo de tarefa não é permitido para novos casos de uso e é fortemente desaconselhado para clientes existentes. A Databricks recomenda o uso da tarefa **JAR** em vez disso para cargas de trabalho JVM. Consulte tarefa JAR para Jobs.

Limitações

Você pode executar tarefas de envio do spark somente em novos clusters.
É preciso fazer upload do seu arquivo JAR para um local ou repositório Maven compatível com a sua configuração de compute. Consulte suporte a bibliotecas Java e Scala.
Não é possível acessar arquivos JAR armazenados em volumes.
O Spark-submit não oferece suporte ao autoscale de clusters. Para saber mais sobre dimensionamento automático, consulte Dimensionamento automático de clusters.
O Spark-submit não oferece suporte à rescisão automática de cluster. Aplicações Spark lançadas usando Spark-submit devem chamar explicitamente System.exit quando tiverem sido concluídas.
O Spark-submit não é compatível com os utilitários Databricks (dbutils) de referência. Para usar utilitários do Databricks, use tarefas JAR.
Se você estiver usando clusters habilitados para Unity Catalog, o envio de faísca é suportado apenas se os clusters usarem o modo de acesso dedicado. O modo de acesso padrão não é suportado. Consulte Modos de acesso.
Os Jobs de transmissão estructurada nunca devem ter o máximo de execuções concorrentes definidas como maior que 1. Os jobs de transmissão devem ser configurados para serem executados utilizando a expressão cron "* * * * * ?" (a cada minuto). Como uma tarefa de transmissão é executada continuamente, ela sempre deve ser a tarefa final de um job.

Configurar uma tarefa de envio do Spark

Adicione uma Spark Submit tarefa da tab **Tarefas** na interface de Jobs realizando o seguinte:

Clique em Adicionar tarefa .
Insira um nome no campo Nome da tarefa .
No menu suspenso Tipo , selecione Spark Submit.
Use **Compute** para configurar um cluster que dá suporte à lógica em sua tarefa.
Utilize a caixa de texto Parâmetros para fornecer todos os argumentos e configurações necessárias para executar a sua tarefa como um array de strings JSON.
- Os três primeiros argumentos são usados para identificar a classe principal a ser executada em um JAR em um caminho especificado, como no exemplo a seguir:
  JSON
```
["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
```
- Não é possível substituir as configurações master, deploy-mode e executor-cores configuradas pelo Databricks
- Use --jars e --py-files para adicionar bibliotecas dependentes de Java, Scala e Python.
- Use --conf para definir as configurações do Spark.
- Os argumentos --jars, --py-files, --files suportam caminhos DBFS e S3.
- Por default, o Job de envio do Spark usa toda a memória disponível, excluindo a memória reservada para os serviços Databricks. Você pode definir --driver-memory e --executor-memory para um valor menor para deixar um espaço para uso fora da heap.
Clique em Salvar tarefa .

Limitações​

Configurar uma tarefa de envio do Spark​

Limitações

Configurar uma tarefa de envio do Spark