Spark Submit (legado)
The Spark Submit task type is a legacy pattern for configuring JARs as tasks. Databricks recommends using the JAR task. See JAR task for jobs.
Requisitos
Você pode executar tarefas de envio do spark somente em novos clusters.
You must upload your JAR file to a location or Maven repository compatible with your compute configuration. See Java and Scala library support.
O senhor não pode acessar arquivos JAR armazenados em volumes.
Spark-submit não é compatível com cluster autoscale. Para saber mais sobre autoscale, consulte autoscale de cluster.
Spark-submit não é compatível com a referênciaDatabricks utilidades (dbutils). Para usar Databricks utilidades, use JAR tarefa.
Se o senhor usar um cluster habilitado para o Unity Catalog, o spark-submit será suportado somente se o cluster usar o modo de acesso de usuário único. O modo de acesso compartilhado não é suportado. Consulte Modos de acesso.
transmissão estructurada O trabalho nunca deve ter a concorrente máxima de execução definida como maior que 1. transmissão O trabalho deve ser definido para execução usando a expressão cron
"* * * * * ?"
(a cada minuto). Como a tarefa de transmissão é executada continuamente, ela deve ser sempre a tarefa final em um trabalho.
Configurar uma tarefa Spark Submit
Adicione uma tarefa Spark Submit
da tarefa tab na interface do usuário de Jobs fazendo o seguinte:
No menu suspenso Tipo, selecione
Spark Submit
.Use o compute para configurar um cluster que suporte a lógica em sua tarefa.
Use a caixa de texto Parameters (Parâmetros ) para fornecer todos os argumentos e configurações necessários para executar sua tarefa como um array de strings JSON.
Os três primeiros argumentos são usados para identificar a classe principal a ser executada em um JAR em um caminho especificado, como no exemplo a seguir:
["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
O senhor não pode substituir as configurações
master
,deploy-mode
eexecutor-cores
definidas pela DatabricksUse
--jars
e--py-files
para adicionar Java, Scala e Python biblioteca dependentes.Use
--conf
para definir as configurações do Spark.Os argumentos
--jars
,--py-files
,--files
suportam caminhos DBFS e S3.By default, the Spark submit job uses all available memory, excluding memory reserved for Databricks services. You can set
--driver-memory
, and--executor-memory
to a smaller value to leave some room for off-heap usage.
Clique em Save task (Salvar tarefa).