Envio do Spark (legado, obsoleto, será removido em meados de 2026)
O tipo de tarefa **Spark Submit** é um padrão legado para configurar JARs como tarefas.
A tarefa Spark Submit está obsoleta e com remoção pendente em meados de 2026. O uso deste tipo de tarefa não é permitido para novos casos de uso e é fortemente desaconselhado para clientes existentes. A Databricks recomenda o uso da tarefa **JAR** em vez disso para cargas de trabalho JVM. Consulte tarefa JAR para Jobs.
Limitações
- Você pode executar tarefas de envio do spark somente em novos clusters.
- É preciso fazer upload do seu arquivo JAR para um local ou repositório Maven compatível com a sua configuração de compute. Consulte suporte a bibliotecas Java e Scala.
- Não é possível acessar arquivos JAR armazenados em volumes.
- O Spark-submit não oferece suporte ao autoscale de clusters. Para saber mais sobre dimensionamento automático, consulte Dimensionamento automático de clusters.
- O Spark-submit não oferece suporte à rescisão automática de cluster. Aplicações Spark lançadas usando Spark-submit devem chamar explicitamente
System.exitquando tiverem sido concluídas. - O Spark-submit não é compatível com os utilitários Databricks (
dbutils) de referência. Para usar utilitários do Databricks, use tarefas JAR. - Se você estiver usando clusters habilitados para Unity Catalog, o envio de faísca é suportado apenas se os clusters usarem o modo de acesso dedicado. O modo de acesso padrão não é suportado. Consulte Modos de acesso.
- Os Jobs de transmissão estructurada nunca devem ter o máximo de execuções concorrentes definidas como maior que 1. Os jobs de transmissão devem ser configurados para serem executados utilizando a expressão cron
"* * * * * ?"(a cada minuto). Como uma tarefa de transmissão é executada continuamente, ela sempre deve ser a tarefa final de um job.
Configurar uma tarefa de envio do Spark
Adicione uma Spark Submit tarefa da tab **Tarefas** na interface de Jobs realizando o seguinte:
-
Clique em Adicionar tarefa .
-
Insira um nome no campo Nome da tarefa .
-
No menu suspenso Tipo , selecione
Spark Submit. -
Use **Compute** para configurar um cluster que dá suporte à lógica em sua tarefa.
-
Utilize a caixa de texto Parâmetros para fornecer todos os argumentos e configurações necessárias para executar a sua tarefa como um array de strings JSON.
-
Os três primeiros argumentos são usados para identificar a classe principal a ser executada em um JAR em um caminho especificado, como no exemplo a seguir:
JSON["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"] -
Não é possível substituir as configurações
master,deploy-modeeexecutor-coresconfiguradas pelo Databricks -
Use
--jarse--py-filespara adicionar bibliotecas dependentes de Java, Scala e Python. -
Use
--confpara definir as configurações do Spark. -
Os argumentos
--jars,--py-files,--filessuportam caminhos DBFS e S3. -
Por default, o Job de envio do Spark usa toda a memória disponível, excluindo a memória reservada para os serviços Databricks. Você pode definir
--driver-memorye--executor-memorypara um valor menor para deixar um espaço para uso fora da heap.
-
-
Clique em Salvar tarefa .