Databricks Asset Bundles のジョブにタスクを追加する

この記事では、 Asset Bundle のジョブに追加できるさまざまなタイプのタスクの例を示します。LakeFlowDatabricks「Databricks アセットバンドルとは」を参照してください。

ほとんどのジョブタスクの種類には、サポートされている設定の中にタスク固有のパラメーターがありますが、タスクに渡されるジョブパラメーターを定義することもできます。動的値参照はジョブ・パラメーターでサポートされており、タスク間でジョブ実行に固有の値を渡すことができます。動的値参照とはを参照してください。

ジョブタスクの設定を上書きすることもできます。「Databricks アセットバンドルでのジョブタスク設定のオーバーライド」を参照してください。

important

ジョブ git_source フィールドとタスク source フィールドを GIT に設定することは、ローカルの相対パスが Git リポジトリ内の同じコンテンツを指していない可能性があるため、バンドルには推奨されません。バンドルは、デプロイされたジョブがデプロイされた場所のローカルコピーと同じファイルを持つことを想定しています。

代わりに、リポジトリをローカルにクローンし、このリポジトリ内にバンドルプロジェクトを設定して、タスクのソースがワークスペースになるようにします。

ヒント

Databricks CLI を使用して既存のジョブのリソース構成をすばやく生成するには、bundle generate job コマンドを使用できます。バンドル・コマンドを参照してください。

ノートブックタスク

このタスクを使用して、ノートブックを実行します。ジョブのノートブック・タスクを参照してください。

次の例では、ノートブックタスクをジョブに追加し、 my_job_run_idという名前のジョブパラメーターを設定します。デプロイするノートブックのパスは、このタスクが宣言されている構成ファイルを基準にしています。タスクは、Databricks ワークスペース内のデプロイされた場所からノートブックを取得します。

YAML
resources:
  jobs:
    my-notebook-job:
      name: my-notebook-job
      tasks:
        - task_key: my-notebook-task
          notebook_task:
            notebook_path: ./my-notebook.ipynb
      parameters:
        - name: my_job_run_id
          default: '{{job.run_id}}'

このタスクに設定できるその他のマッピングについては、YAML 形式で表されるリファレンスのtasks > notebook_taskPOST /api/2.1/job/create で定義されている create ジョブ操作の要求ペイロードのを参照してください。RESTAPI

Python スクリプトタスク

このタスクを使用して、Python ファイルを実行します。

次の例では、Python スクリプトタスクをジョブに追加します。デプロイする Python ファイルのパスは、このタスクが宣言されている構成ファイルを基準にしています。タスクは、Databricks ワークスペース内のデプロイされた場所から Python ファイルを取得します。

YAML
resources:
  jobs:
    my-python-script-job:
      name: my-python-script-job

      tasks:
        - task_key: my-python-script-task
          spark_python_task:
            python_file: ./my-script.py

このタスクに設定できるその他のマッピングについては、YAML 形式で表されるリファレンスのtasks > spark_python_taskPOST /api/2.1/job/create で定義されている create ジョブ操作の要求ペイロードのを参照してください。RESTAPIジョブの Python スクリプトタスクも参照してください。

Python wheel タスク

このタスクを使用して、 Python wheel ファイルを実行します。

次の例では、Python wheel タスクをジョブに追加します。デプロイする Python wheel ファイルのパスは、このタスクが宣言されている構成ファイルを基準にしています。「Databricks Asset Bundles ライブラリの依存関係」を参照してください。

YAML
resources:
  jobs:
    my-python-wheel-job:
      name: my-python-wheel-job
      tasks:
        - task_key: my-python-wheel-task
          python_wheel_task:
            entry_point: run
            package_name: my_package
          libraries:
            - whl: ./my_package/dist/my_package-*.whl

このタスクに設定できるその他のマッピングについては、YAML 形式で表されるリファレンスのtasks > python_wheel_taskPOST /api/2.1/job/create で定義されている create ジョブ操作の要求ペイロードのを参照してください。RESTAPIPython wheelDatabricks「Python wheel アセットバンドルを使用したファイルの構築」および「ジョブのタスク」も参照してください。

JAR タスク

このタスクを使用して JAR を実行します。ローカルの JAR ライブラリ、またはワークスペース、Unity Catalog ボリューム、または外部クラウドストレージの場所内のライブラリを参照できます。「Databricks Asset Bundles ライブラリの依存関係」を参照してください。

ScalaJARUnity Catalog標準アクセスモードで対応クラスターでファイルをコンパイルしてデプロイする方法の詳細については、「クラスターでの ScalaJAR のデプロイUnity Catalog 」を参照してください。

次の例では、ジョブに JAR タスクを追加します。 JAR のパスは、指定されたボリューム・ロケーションです。

YAML
resources:
  jobs:
    my-jar-job:
      name: my-jar-job
      tasks:
        - task_key: my-jar-task
          spark_jar_task:
            main_class_name: org.example.com.Main
          libraries:
            - jar: /Volumes/main/default/my-volume/my-project-0.1.0-SNAPSHOT.jar

このタスクに設定できるその他のマッピングについては、YAML 形式で表されるリファレンスのtasks > spark_jar_taskPOST /api/2.1/job/create で定義されている create ジョブ操作の要求ペイロードのを参照してください。RESTAPIジョブの JAR タスクを参照してください。

SQL ファイルタスク

このタスクを使用して、ワークスペースまたはリモート Git リポジトリにある SQL ファイルを実行します。

次の例では、SQL ファイル・タスクをジョブに追加します。この SQL ファイルタスクは、指定された SQLウェアハウスを使用して、指定された SQL ファイルを実行します。

YAML
resources:
  jobs:
    my-sql-file-job:
      name: my-sql-file-job
      tasks:
        - task_key: my-sql-file-task
          sql_task:
            file:
              path: /Users/someone@example.com/hello-world.sql
              source: WORKSPACE
            warehouse_id: 1a111111a1111aa1

SQLウェアハウスの ID を取得するには、SQLウェアハウスの設定ページを開き、[ 概要 ] タブの [名前 ] フィールドでウェアハウスの名前の後に括弧で囲まれた ID をコピーします。

このタスクに設定できるその他のマッピングについては、YAML 形式で表されるリファレンスのtasks > sql_task > filePOST /api/2.1/job/create で定義されている create ジョブ操作の要求ペイロードのを参照してください。RESTAPIジョブの SQL タスクを参照してください。

パイプラインタスク

このタスクを使用して、パイプラインを実行します。LakeFlow 宣言型パイプラインを参照してください。

次の例では、パイプラインタスクをジョブに追加します。このタスクは、指定されたパイプラインを実行します。

YAML
resources:
  jobs:
    my-pipeline-job:
      name: my-pipeline-job
      tasks:
        - task_key: my-pipeline-task
          pipeline_task:
            pipeline_id: 11111111-1111-1111-1111-111111111111

パイプラインの ID を取得するには、ワークスペースでパイプラインを開き、パイプラインの設定ページの [パイプラインの詳細 ] タブで [パイプライン ID ] の値をコピーします。

このタスクに設定できるその他のマッピングについては、YAML 形式で表されるリファレンスのtasks > pipeline_taskPOST /api/2.1/job/create で定義されている create ジョブ操作の要求ペイロードのを参照してください。RESTAPIジョブのパイプラインタスクを参照してください。

ダッシュボードタスク

このタスクを使用して、ダッシュボードを更新し、スナップショットをサブスクライバーに送信します。ダッシュボードタスクの詳細については、「ジョブのダッシュボードタスク」を参照してください。

次の例では、ダッシュボードタスクをジョブに追加します。ジョブが実行されると、指定した ID のダッシュボードが更新されます。

YAML
resources:
  jobs:
    my-dashboard-job:
      name: my-dashboard-job
      tasks:
        - task_key: my-dashboard-task
          dashboard_task:
            dashboard_id: 11111111-1111-1111-1111-111111111111

このタスクに設定できるその他のマッピングについては、YAML 形式で表されるリファレンスのtasks > dashboard_taskPOST /api/2.1/job/create で定義されている、ジョブ作成操作の要求ペイロードのを参照してください。RESTAPI

dbt タスク

このタスクを使用して、1 つ以上の dbt コマンドを実行します。 dbt Cloud への接続を参照してください。

次の例では、ジョブに dbt タスクを追加します。この dbt タスクは、指定された SQLウェアハウスを使用して、指定された dbt コマンドを実行します。

YAML
resources:
  jobs:
    my-dbt-job:
      name: my-dbt-job
      tasks:
        - task_key: my-dbt-task
          dbt_task:
            commands:
              - 'dbt deps'
              - 'dbt seed'
              - 'dbt run'
            project_directory: /Users/someone@example.com/Testing
            warehouse_id: 1a111111a1111aa1
          libraries:
            - pypi:
                package: 'dbt-databricks>=1.0.0,<2.0.0'

このタスクに設定できるその他のマッピングについては、YAML 形式で表されるリファレンスのtasks > dbt_taskPOST /api/2.1/job/create で定義されている create ジョブ操作の要求ペイロードのを参照してください。RESTAPIジョブのdbtタスクを参照してください。

Databricks Asset Bundles には、dbtタスクを持つジョブを定義する dbt-sql プロジェクトテンプレートと、デプロイされたdbtジョブのdbtプロファイルも含まれています。Databricks Asset Bundles テンプレートに関する情報については、「デフォルトバンドルテンプレート」を参照してください。

If/else 条件タスク

この condition_task を使用すると、if/else 条件付きロジックを持つタスクをジョブに追加できます。タスクは、他のタスクの実行を制御するために使用できる条件を評価します。条件タスクは、実行するためにクラスターを必要とせず、再試行や通知もサポートしていません。 if/else タスクの詳細については、「 If/else タスクを使用してジョブに分岐ロジックを追加する」を参照してください。

次の例には、条件タスクとノートブックタスクが含まれており、ノートブックタスクはジョブの修復回数が 5 未満の場合にのみ実行されます。

YAML
resources:
  jobs:
    my-job:
      name: my-job
      tasks:
        - task_key: condition_task
          condition_task:
            op: LESS_THAN
            left: '{{job.repair_count}}'
            right: '5'
        - task_key: notebook_task
          depends_on:
            - task_key: condition_task
              outcome: 'true'
          notebook_task:
            notebook_path: ../src/notebook.ipynb

このタスクに設定できるその他のマッピングについては、YAML 形式で表されるリファレンスのtasks > condition_taskPOST /api/2.1/job/create で定義されている create ジョブ操作の要求ペイロードのを参照してください。RESTAPI

各タスクについて

この for_each_task を使用すると、for each ループを持つタスクをジョブに追加できます。タスクは、指定されたすべての入力に対してネストされたタスクを実行します。 for_each_taskの詳細については、「For each タスクを使用してループ内の別のタスクを実行する」を参照してください。

次の例では、ジョブに for_each_task を追加し、ジョブは別のタスクの値をループして処理します。

YAML
resources:
  jobs:
    my_job:
      name: my_job
      tasks:
        - task_key: generate_countries_list
          notebook_task:
            notebook_path: ../src/generate_countries_list.ipnyb
        - task_key: process_countries
          depends_on:
            - task_key: generate_countries_list
          for_each_task:
            inputs: '{{tasks.generate_countries_list.values.countries}}'
            task:
              task_key: process_countries_iteration
              notebook_task:
                notebook_path: ../src/process_countries_notebook.ipnyb

このタスクに設定できるその他のマッピングについては、YAML 形式で表されるリファレンスのtasks > for_each_taskPOST /api/2.1/job/create で定義されている create ジョブ操作の要求ペイロードのを参照してください。RESTAPI

ジョブタスクの実行

このタスクを使用して、別のジョブを実行します。

次の例は、最初のジョブを実行する 2 番目のジョブの実行ジョブタスクを含んでいます。

YAML
resources:
  jobs:
    my-first-job:
      name: my-first-job
      tasks:
        - task_key: my-first-job-task
          new_cluster:
            spark_version: '13.3.x-scala2.12'
            node_type_id: 'i3.xlarge'
            num_workers: 2
          notebook_task:
            notebook_path: ./src/test.py
    my_second_job:
      name: my-second-job
      tasks:
        - task_key: my-second-job-task
          run_job_task:
            job_id: ${resources.jobs.my-first-job.id}

この例では、置換を使用して、実行するジョブの ID を取得します。UI からジョブの ID を取得するには、ワークスペースでジョブを開き、ジョブの設定ページの [ジョブの詳細 ] タブの [ジョブ ID ] の値から ID をコピーします。

このタスクに設定できるその他のマッピングについては、YAML 形式で表されるリファレンスのtasks > run_job_taskPOST /api/2.1/job/create で定義されている create ジョブ操作の要求ペイロードのを参照してください。RESTAPI

ノートブック タスク​

Python スクリプト タスク​

Python wheel タスク​

JAR タスク​

SQL ファイルタスク​

パイプライン タスク​

ダッシュボード タスク​

dbt タスク​

If/else 条件タスク​

各タスクについて​

ジョブタスクの実行​