Spark Submit (legado)
O tipo Spark Submit tarefa é um padrão herdado para configurar JARs como tarefa. A Databricks recomenda o uso da tarefa JAR . Consulte JAR tarefa for Job.
Requisitos
- Você pode executar tarefas de envio do spark somente em novos clusters.
- O senhor deve upload seu arquivo JAR em um local ou repositório Maven compatível com sua configuração compute. Consulte Java e Scala para obter suporte à biblioteca.
- O senhor não pode acessar arquivos JAR armazenados em volumes.
- Spark-submit não oferece suporte à autoescala de clustering. Para saber mais sobre autoscale, consulte clustering autoscale.
- Spark-submit não é compatível com a referênciaDatabricks utilidades (
dbutils
). Para usar Databricks utilidades, use JAR tarefa. - Se o senhor usar um clustering habilitado para o Unity Catalog, o spark-submit terá suporte somente se o clustering usar o modo de acesso dedicado. O modo de acesso padrão não é suportado. Consulte Modos de acesso.
- transmissão estructurada O trabalho nunca deve ter a concorrente máxima de execução definida como maior que 1. transmissão O trabalho deve ser definido para execução usando a expressão cron
"* * * * * ?"
(a cada minuto). Como a tarefa de transmissão é executada continuamente, ela deve ser sempre a última tarefa em um trabalho.
Configurar uma tarefa Spark Submit
Adicione uma tarefa Spark Submit
da tarefa tab na interface do usuário de Jobs fazendo o seguinte:
-
No menu suspenso Tipo , selecione
Spark Submit
. -
Use a computação para configurar um clustering que suporte a lógica em sua tarefa.
-
Use a caixa de texto Parameters (Parâmetros ) para fornecer todos os argumentos e configurações necessários para executar sua tarefa como um array de strings JSON.
-
Os três primeiros argumentos são usados para identificar a classe principal a ser executada em um JAR em um caminho especificado, como no exemplo a seguir:
JSON["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
-
O senhor não pode substituir as configurações
master
,deploy-mode
eexecutor-cores
definidas pela Databricks -
Use
--jars
e--py-files
para adicionar Java, Scala e Python biblioteca dependentes. -
Use
--conf
para definir as configurações do Spark. -
Os argumentos
--jars
,--py-files
,--files
suportam caminhos DBFS. -
Em default, o Spark submit Job usa toda a memória disponível, excluindo a memória reservada para o Databricks serviço. Você pode definir
--driver-memory
e--executor-memory
com um valor menor para deixar espaço para uso fora da pilha.
-
-
Clique em Save task (Salvar tarefa ).