Lakeflowジョブを使用して、バックフィルをサポートする定期的なクエリを設定する

一般的なシナリオは、ジョブによってオーケストレーションされ、定期的に実行されるクエリです。たとえば、毎日の終わりにクエリが実行され、その日のソースデータセットの変更に基づいてシステムが更新されます。このチュートリアルでは、データをインポートする期間を特定するクエリを作成し、そのクエリを毎日実行するようにスケジュールするジョブを作成します。

このチュートリアルで作成されたクエリとパラメーターはベストプラクティスに一致しており、必要に応じて後でバックフィルジョブを実行できるように設定されています。

前提条件

このチュートリアルを完了するには、 Databricksのシステムテーブルにアクセスできる必要があります。

ステップ 1: クエリを作成する

このチュートリアルでは、どのデータを取得するかを説明するために、を使用するクエリを作成します。たとえば、このチュートリアルでは、システムテーブルの請求データを使用して、毎日のDatabricksコストを計算します。

クエリでは次の 2 つの点が使用されます。

パラメーター	使用
`data_interval_end`	ジョブが実行される日付 (定期スケジュールの場合)。これは、処理される時間範囲の終了日です。または、バックフィルジョブの場合は、バックフィルするデータの終了日。
`lookback_days`	何日分のデータをクエリするか。クエリは`data_interval_end`から遡って検索します。これは通常、クエリが実行された時刻または日付であるため、前方検索ではなく後方検索を行う必要があります。

次のステップに従ってクエリを作成します。

ワークスペースから、をクリックします。 新しい 、それから ノートブック 新しいノートブックを作成します。
名前のデフォルトはUntitled Notebook <date-time>です。ノートブックの上部にある名前をクリックし、 Query billing with parameters tutorialなどのわかりやすい名前を付けます。
ノートブックエディターの上部にある言語セレクターから SQL を選択します。

最初のセルに次のコードを追加します。<catalog>と<schema>を、使用するアクセス権のあるカタログとスキーマに置き換えます。

SQL
USE CATALOG <catalog>;
USE SCHEMA <schema>;

CREATE TABLE IF NOT EXISTS tutorial_databricks_product_spend (billing_origin_product STRING, usage_date DATE, total_dollar_cost DECIMAL(12, 2));

-- Process the last N days specified by :lookback_days ending on :data_interval_end
INSERT INTO TABLE tutorial_databricks_product_spend
  REPLACE WHERE
    usage_date >= date_add(:data_interval_end, - CAST(:lookback_days AS INT)) AND usage_date < :data_interval_end
  SELECT
    usage.billing_origin_product,
    usage.usage_date,
    SUM(usage.usage_quantity * list_prices.pricing.effective_list.default) AS total_dollar_cost
  FROM
    system.billing.usage AS usage
      JOIN system.billing.list_prices AS list_prices
        ON usage.sku_name = list_prices.sku_name
        AND usage.usage_end_time >= list_prices.price_start_time
        AND (
          list_prices.price_end_time IS NULL
          OR usage.usage_end_time < list_prices.price_end_time
        )
  WHERE
    usage.usage_date >=
      date_add(:data_interval_end, -CAST(:lookback_days AS INT))
    AND usage.usage_date <
      :data_interval_end
  GROUP BY
    usage.billing_origin_product,
    usage.usage_date

編集、追加をクリックして、2 つのパラメーターを追加します。パラメーターには次の名前と値が含まれている必要があります。

名前	デフォルト値
`lookback_days`	`1`
`data_interval_end`	< なし >。このパラメーターは常に必要です。

パラメーターと、さまざまなタスクタイプまたはPythonからそれらにアクセスする方法については、タスクからのパラメーター値へのアクセスを参照してください。

クエリの準備が整いました。クエリはシステムテーブルから 1 日分のデータを読み取り、 REPLACE WHEREを使用して宛先テーブル内の既存のデータを置き換えます。データを挿入するのではなく置き換えることにより、その日を 2 回目に実行してもクエリに悪影響はありません。実際、これにより、処理中にエラーが発生した場合やデータが遅れて到着した場合に、1 日を再実行することができます。

次のステップに従ってクエリをテストできます。

ノートブックのセルの上にあるdata_interval_end値を、 yyyy-mm-ddの形式 (例: 2025-10-02 ) で指定します。
必要に応じて、 接続し て使用するコンピュートリソースを選択します。
クリック すべて実行します 。
実行が完了したら、左側のメニューから カタログを 選択し、クエリで設定したカタログとスキーマを選択します。

次に、クエリの定期的なスケジュールを作成します。

ステップ 2: ジョブを作成してクエリをスケジュールする

ワークスペースで、サイドバーの ジョブ & パイプライン をクリックします。
作成をクリックし、 ジョブ をクリックします。
最初のタスクを構成するには、 ノートブック タイルをクリックします。 ノートブック タイルが利用できない場合は、 [別のタスクタイプを追加] をクリックし、 ノートブック を検索します。
(オプション) ジョブ名 (デフォルトはNew Job <date-time> ) を自分のジョブ名に置き換えます。
[タスク名] フィールドにタスクの名前を入力します。たとえば、 tutorial-databricks-spend 。
必要に応じて、 [タイプ] ドロップダウンメニューから [ノートブック] を選択します。
[ソース] ドロップダウンメニューで [ワークスペース] を選択すると、以前に保存したノートブックを使用できるようになります。
パスについては、ファイルブラウザーを使用して最初に作成したノートブックを見つけ、ノートブック名をクリックして、確認をクリックします。
クリック パラメーター セクションに 追加します 。 lookback_daysパラメーターを追加し、値を1にします。
クリック パラメーター セクションに 追加します 。 data_interval_endパラメーターを追加します。パラメータ化された値のリストを表示するには、値の横にある { } をクリックします。リストから{{job.trigger.time.iso_date}}を選択して値として挿入します。

これにより、ジョブが実行がトリガーされた日付が保留として渡されます。

注記

1 日ではなく 1 時間など、より短い期間を振り返るクエリがある場合は、時間をつぶすために{{job.trigger.time.iso_datetime}}使用することもできます。この場合、クエリではどちらのオプションも機能しますが、 iso_dateパラメーターの意図を示しています。

「 タスクを作成 」をクリックします。
タスクの右側にある詳細パネルの [スケジュールとトリガー] で、 [トリガーの追加] を クリックします。
トリガータイプ で スケジュール を選択します。
1 日に 1 回実行されるアクティブなトリガーのデフォルトを維持します。
保存をクリックします。

ジョブはクエリを毎日実行するようになりました。デフォルトでは、トリガーを作成した時刻と同じ時刻に実行されます。トリガーを編集し、 高度な トリガータイプを選択して特定の時間を設定できます。

注記

このチュートリアルジョブ実行を毎日行うことで料金が発生したくない場合は、作成したばかりのスケジュールで 停止します 。これによりスケジュールは維持されますが、一時停止を解除するまで実行されません。いつでも手動で実行できます。

次に、バックフィルを実行して古いデータをテーブルにロードします。

ステップ 3: 古いデータのバックフィルを実行する

バックフィルを実行して古いデータを入力できます。たとえば、先週のデータをテーブルに入力したい場合などです。次の手順では、過去 7 日間のデータをそれぞれ処理するために 7 回のバックフィル実行を作成します。

下矢印（ページ上部の [今すぐ実行] の横にある [実行] アイコン ( ) をクリックします。
表示されるドロップダウンから 「バックフィルの実行」 を選択します。これにより 、バックフィルの実行 ダイアログが開きます。
日付範囲を、バックフィルする範囲に変更します。 開始を 7 日前の午前 12:00 に選択し、終了を今日の午前 12:00 に選択します。たとえば、開始時刻として09/14/2025, 12:00 AM選択し、終了時刻として09/21/2025, 12:00 AM選択できます。
各バックフィルの時間間隔として1 Day ごとを 選択します。
ジョブのパラメーター の下に、既存のパラメーターがキーと値とともに表示されます。 data_interval_endパラメーターが{{backfill.iso_datetime}}に設定され、 lookback_daysが1であることを確認します。
「実行」 をクリックしてバックフィル実行を開始します。これにより、バックフィルの実行が 1 日ごとに 1 回ずつ、合計 7 回実行されます。

バックフィルは、ジョブの設定に応じて、並列または順次実行できます。バックフィルの詳細については、「バックフィルジョブ」を参照してください。

前提条件​

ステップ 1: クエリを作成する​

ステップ 2: ジョブを作成してクエリをスケジュールする​

ステップ 3: 古いデータのバックフィルを実行する​

前提条件

ステップ 1: クエリを作成する

ステップ 2: ジョブを作成してクエリをスケジュールする

ステップ 3: 古いデータのバックフィルを実行する