Spark Submit (legado)

The Spark Submit task type is a legacy pattern for configuring JARs as tasks. Databricks recommends using the JAR task. See JAR task for jobs.

Requisitos

  • Você pode executar tarefas de envio do spark somente em novos clusters.

  • You must upload your JAR file to a location or Maven repository compatible with your compute configuration. See Java and Scala library support.

  • O senhor não pode acessar arquivos JAR armazenados em volumes.

  • Spark-submit não é compatível com cluster autoscale. Para saber mais sobre autoscale, consulte autoscale de cluster.

  • Spark-submit não é compatível com a referênciaDatabricks utilidades (dbutils). Para usar Databricks utilidades, use JAR tarefa.

  • Se o senhor usar um cluster habilitado para o Unity Catalog, o spark-submit será suportado somente se o cluster usar o modo de acesso de usuário único. O modo de acesso compartilhado não é suportado. Consulte Modos de acesso.

  • transmissão estructurada O trabalho nunca deve ter a concorrente máxima de execução definida como maior que 1. transmissão O trabalho deve ser definido para execução usando a expressão cron "* * * * * ?" (a cada minuto). Como a tarefa de transmissão é executada continuamente, ela deve ser sempre a tarefa final em um trabalho.

Configurar uma tarefa Spark Submit

Adicione uma tarefa Spark Submit da tarefa tab na interface do usuário de Jobs fazendo o seguinte:

  1. No menu suspenso Tipo, selecione Spark Submit.

  2. Use o compute para configurar um cluster que suporte a lógica em sua tarefa.

  3. Use a caixa de texto Parameters (Parâmetros ) para fornecer todos os argumentos e configurações necessários para executar sua tarefa como um array de strings JSON.

    • Os três primeiros argumentos são usados para identificar a classe principal a ser executada em um JAR em um caminho especificado, como no exemplo a seguir:

      ["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
      
    • O senhor não pode substituir as configurações master, deploy-mode e executor-cores definidas pela Databricks

    • Use --jars e --py-files para adicionar Java, Scala e Python biblioteca dependentes.

    • Use --conf para definir as configurações do Spark.

    • Os argumentos --jars, --py-files, --files suportam caminhos DBFS e S3.

    • By default, the Spark submit job uses all available memory, excluding memory reserved for Databricks services. You can set --driver-memory, and --executor-memory to a smaller value to leave some room for off-heap usage.

  4. Clique em Save task (Salvar tarefa).