メインコンテンツまでスキップ

Spark Submit(レガシ、非推奨、2026年中に廃止および削除)

Spark Submit タスクタイプは、JARをタスクとして構成するための従来のパターンです。

警告

Spark Submitタスクは2026年中に廃止および削除される予定です。このタスクタイプの使用は、新しいユースケースでは許可されておらず、既存の顧客には強く推奨されません。Databricksでは、JVMワークロードには代わりに JAR タスクを使用することをお勧めします。ジョブのJARタスクを参照してください。

制限事項:

  • Spark-Submitタスクは新しいクラスターでのみ実行できます。
  • JARファイルを、コンピュート構成と互換性のある場所またはMavenリポジトリにアップロードする必要があります。Java と Scala のライブラリのサポートを参照してください。
  • ボリュームに保存されているJARファイルにはアクセスできません。
  • Spark-submit はクラスター オートスケールをサポートしていません。 オートスケールの詳細については、「 クラスター オートスケール」を参照してください。
  • Spark-submit はクラスターの自動終了をサポートしていません。Spark-submit を使用して起動される Sparkアプリケーション は、完了したときに System.exit を明示的に呼び出す必要があります。
  • Spark-submit は Databricksユーティリティ(dbutils)参照 をサポートしていません。Databricksユーティリティを使用するには、代わりにJARタスクを使用してください。
  • Unity Catalog 対応のクラスターを使用する場合、spark-submit は、クラスターが専用アクセス モードを使用している場合にのみサポートされます。 標準アクセスモードはサポートされていません。 アクセスモードを参照してください。
  • 構造化ストリーミングジョブでは、最大並列実行を1より大きく設定しないでください。ストリーミングジョブは、cron式"* * * * * ?"を使用して実行されるように設定する必要があります(毎分)。ストリーミングタスクは継続的に実行されるため、常にジョブの最後のタスクにする必要があります。

Spark Submitタスクを構成

ジョブUIの タスク タブからSpark Submitタスクを以下の手順で追加します。

  1. **[タスクの追加]**をクリックします。

  2. 「タスク名」 フィールドにタスクの名前を入力します。

  3. タイプ ドロップダウンメニューで、Spark Submitを選択します。

  4. コンピュート を使用して、タスクのロジックをサポートするクラスターを構成します。

  5. パラメーター テキスト ボックスを使用して、タスクをJSON形式の文字列の配列として実行するために必要なすべての引数と構成を指定します。

    • 最初の3つの引数は、次の例のように、指定されたパスのJAR内で実行するメインクラスを識別するために使用されます。

      JSON
      ["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
    • Databricks によって構成された masterdeploy-mode、および executor-cores の設定を上書きすることはできません。

    • --jars--py-files を使用して、依存する Java、Scala、Python ライブラリを追加します。

    • --conf を使用して Spark 設定を構成します。

    • --jars--py-files--filesの引数はDBFSパスに対応しています。

    • デフォルトでは、Spark submit ジョブはDatabricks サービス用に予約されているメモリを除き、利用可能なすべてのメモリを使用します。--driver-memory--executor-memoryをより小さい値に設定して、オフヒープ使用のためにいくらかの領域を残すことができます。

  6. タスクの保存 をクリックします。