マテリアライズドビューの増分更新

備考

プレビュー

この記事では、マテリアライズドビューでの増分更新のセマンティクスと要件の概要を説明し、増分更新をサポートする SQL 操作、キーワード、および句を特定します。増分更新と完全更新の違いの説明や、マテリアライズドビューとストリーミングテーブルのどちらを選択するかについての推奨事項が含まれています。

サーバレスパイプラインを使用してマテリアライズドビューの更新を実行する場合、多くのクエリを増分的に更新できます。増分更新では、マテリアライズド・ビューの定義に使用されるデータソースの変更を検出し、その結果を増分的に計算することで、コンピュートのコストを節約します。

サーバレスコンピュートでの更新実行

更新操作は、操作がDatabricks SQLで定義されたか、 Lakeflow Spark宣言型パイプラインで定義されたかに関係なく、サーバレスパイプラインで実行されます。

Databricks SQL使用して定義されたマテリアライズドビューの場合、ワークスペースでLakeflow Spark宣言型パイプラインを有効にする必要はありません。アップデートにより自動的にサーバレスパイプラインが使用されます。

Lakeflow Spark宣言型パイプラインを使用して定義されたマテリアライズドビューの場合、ベアレスを使用するようにパイプラインを構成する必要があります。「サーバレスパイプラインの構成」を参照してください。

マテリアライズドビューの更新セマンティクスは何ですか?

マテリアライズドビューは、バッチクエリと同等の結果を保証します。たとえば、次の集計クエリについて考えてみます。

SQL
SELECT account_id,
  COUNT(txn_id) txn_count,
  SUM(txn_amount) account_revenue
FROM transactions_table
GROUP BY account_id

任意の Databricks 製品を使用してこのクエリを実行すると、バッチセマンティクスを使用してソース transactions_table内のすべてのレコードを集計するコンピュート、つまり、すべてのソースデータが 1 回の操作でスキャンおよび集計されます。

注記

一部の Databricks 製品では、最後のクエリが実行された後にデータソースが変更されていない場合、セッション内またはセッション間で結果が自動的にキャッシュされます。自動キャッシュ動作は、マテリアライズドビューとは異なります。

次の例では、このバッチクエリをマテリアライズドビューに変換します。

SQL
Python

SQL
CREATE OR REPLACE MATERIALIZED VIEW transaction_summary AS
SELECT account_id,
  COUNT(txn_id) txn_count,
  SUM(txn_amount) account_revenue
FROM transactions_table
GROUP BY account_id

Python
@dp.materialized_view()
def transaction_summary():
  return (spark.read.table("transactions_table")
    .groupBy("account_id")
    .agg(
      count("*").alias("txn_count"),
      sum("txn_amount").alias("account_revenue")
    )
  )

マテリアライズドビューを更新すると、コンピュートの結果はバッチ・クエリ・セマンティクスと同一になります。このクエリは、増分更新が可能なマテリアライズドビューの例です。つまり、更新操作では、ソースデータ内の新しいデータまたは変更されたデータのみを処理して結果をコンピュートするベストエフォート transactions_table 試みます。

マテリアライズドビューのデータソースに関する考慮事項

マテリアライズドビューは任意のデータソースに対して定義できますが、すべてのデータソースがマテリアライズドビューに適しているわけではありません。次の注意事項と推奨事項を考慮してください。

重要

マテリアライズドビューは、サポートされている操作の結果を段階的に更新するようベストエフォートを試みます。データソースの一部の変更には完全な更新が必要です。完全な更新を実行するのではなく、失敗する更新ポリシーを定義できます。

マテリアライズドビューのすべてのデータソースは、マテリアライズドビューを定義するクエリが増分更新をサポートしている場合でも、完全な更新セマンティクスに対して堅牢である必要があります。

完全な更新にコストがかかるクエリの場合は、ストリーミングテーブルを使用して exactly-once 処理を保証します。例としては、非常に大きなテーブルがあります。
レコードを一度だけ処理する必要がある場合は、データソースに対してマテリアライズドビューを定義しないでください。代わりに、ストリーミングテーブルを使用します。たとえば、次のようなものがあります。
- データ履歴を保持しないデータソース (Kafka など)。
- Auto Loaderを使用してクラウドオブジェクトストレージからデータを取り込むクエリなどの取り込み操作。
- 処理後にデータを削除またはアーカイブする予定であるが、ダウンストリームテーブルに情報を保持する必要があるデータソース。たとえば、日付パーティションテーブルで、特定のしきい値より古いレコードを削除する予定があるとします。
すべてのデータソースが増分更新をサポートしているわけではありません。次のデータソースは増分更新をサポートしています。
- Delta テーブル ( Unity Catalog マネージドテーブルや Delta Lakeによってサポートされる外部テーブルなど)
- マテリアライズドビュー。
- AUTO CDC ... INTO操作のターゲットを含むストリーミングテーブル。
- Unity Catalog は Iceberg テーブル (v2 および v3) を管理します。最適な増分更新サポートには Iceberg v3 が推奨されます。「Apache Iceberg v3 機能の使用」を参照してください。外部の Iceberg テーブルはサポートされていません。
一部の増分更新操作では、クエリされたデータソースで行追跡を有効にする必要があります。行追跡は、マテリアライズドビュー、ストリーミングテーブル、 Unity CatalogマネージドテーブルなどのDeltaテーブルでのみサポートされるDelta Lake機能です。「Databricks での行追跡」を参照してください。
行フィルターまたは列マスクが定義されたデータソースは、増分更新をサポートしません。行フィルターと列マスクを参照してください

マテリアライズドビューを最適化します

最高のパフォーマンスを得るために、Databricks では、すべてのマテリアライズドビューソーステーブルで次の機能を有効にすることをお勧めします。

これらの機能は、作成時に設定することも、後でALTER TABLEステートメント (Databricks SQL から実行) を使用して設定することもできます。例えば：

SQL
ALTER TABLE <table-name> SET TBLPROPERTIES (
  delta.enableDeletionVectors = true,
  delta.enableRowTracking = true,
  delta.enableChangeDataFeed = true);

マテリアライズドビューの更新タイプ

マテリアライズドビューが更新されるときに、更新または完全更新を指定できます。

更新は増分更新を実行しようとしますが、必要に応じてデータの完全な再計算が実行されます。増分更新は、接続先のコンピュートがサーバレスの場合にのみ使用できます。
フル更新では、常にマテリアライズドビューへのすべての入力が再計算され、すべてのチェックポイントがリセットされます。

更新プログラムで使用された更新の種類を確認するには、「更新プログラムの更新の種類を確認する」を参照してください。

デフォルトの更新

サーバレス上のマテリアライズドビューのデフォルト更新は、 増分更新 を実行しようとします。増分更新では、前回の更新後に基になるデータの変更が処理され、そのデータがテーブルに追加されます。基本テーブルと含まれる操作によっては、特定のタイプのマテリアライズドビューのみを段階的に更新できます。増分更新が不可能な場合、または接続されているコンピュートがサーバレスではなくクラシックである場合は、完全な再計算が実行されます。

注記

Databricks は完全更新または増分更新を適用します。決定は、どのオプションがよりコスト効率が高いか、およびクエリが増分更新をサポートしているかどうかに基づいて行われます。この動作を変更するには、「更新ポリシー」を参照してください。

増分更新と完全な再計算の出力は同じです。Databricks はコスト分析を実行して、増分更新と完全な再計算のどちらかの安価なオプションを選択します。

サーバレスパイプラインを使用して更新されたマテリアライズドビューのみが増分更新を使用できます。サーバレスパイプラインを使用しないマテリアライズドビューは、常に完全に再計算されます。

SQLwarehouse またはLakeflow Spark SQL型パイプラインを使用してマテリアライズドビューを作成すると、クエリがサポートされている場合、 Databricksそれらを段階的に更新します。クエリでサポートされていない式が使用されている場合、Databricks は代わりに完全な再計算を実行するため、コストが増加する可能性があります。

更新プログラムで使用された更新の種類を確認するには、「更新プログラムの更新の種類を確認する」を参照してください。

フルリフレッシュ

完全更新では、テーブルとチェックポイントがクリアされ、ソースで使用可能なすべてのデータが再処理されることによって、マテリアライズドビューの結果が上書きされます。

Databricks SQLを使用して定義されたマテリアライズドビューで完全な更新を実行するには、次の構文を使用します。

SQL
REFRESH MATERIALIZED VIEW mv_name FULL

Lakeflow Spark宣言型パイプラインで定義されたマテリアライズドビューの場合、選択したデータセットまたはパイプライン内のすべてのデータセットに対して完全な更新を実行することを選択できます。パイプライン更新セマンティクスを参照してください。

重要

データ保持しきい値または手動削除によりレコードが削除されたデータソースに対して完全な更新を実行すると、削除されたレコードはコンピュートの結果に反映されません。ソースでデータが利用できなくなった場合、古いデータを復元できない場合があります。これにより、ソースデータに存在しなくなった列のスキーマも変更される可能性があります。

マテリアライズドビューの増分更新のサポート

次の表は、SQL キーワードまたは句による増分更新のサポートを示しています。特定のクエリの増分可能性をテストするには、 EXPLAIN CREATE MATERIALIZED VIEWを使用できます。

重要

一部のキーワードと句では、クエリされたデータソースで行追跡を有効にする必要があります。「Databricks での行追跡」を参照してください。

次の表では、これらのキーワードと句にアスタリスク (*) が付いています。

SQL キーワードまたは句	PySparkデータフレーム相当	増分更新のサポート
`SELECT` 式*	`df.select()` または `df.selectExpr()`	はい、決定論的組み込み関数や不変ユーザー定義関数 (UDF) などの式がサポートされています。
`GROUP BY`	`df.groupBy().agg()`	はい
`WITH`	データフレーム変数の連鎖。	はい、共通テーブル式がサポートされています。
`WITH RECURSIVE`	N/A	いいえ。再帰的CTEを使用するマテリアライズドビューは増分更新の対象外であり、完全な再計算にフォールバックします。
`UNION ALL`*	`df.union` または `df.unionAll`	はい
`FROM`	`df = spark.read...`	サポートされているベーステーブルには、 Deltaテーブル、 Unity Catalogで管理されるIcebergテーブル、マテリアライズドビュー、ストリーミングテーブルが含まれます。
`WHERE`、 `HAVING`*	`df.filter()`、`df.where()`、 `df.groupBy().filter()`	`WHERE` や `HAVING` などのフィルター句がサポートされています。
`INNER JOIN`*	`df.join()`	はい
`LEFT OUTER JOIN`*	`df.join(... how="left")`	はい
`FULL OUTER JOIN`*	`df.join(... how="full")`	はい
`RIGHT OUTER JOIN`*	`df.join(... how="right")`	はい
`OVER`	`df.over(window.partitionBy)` functions	はい。 `PARTITION_BY` 列は、ウィンドウ関数のインクリメンタリゼーションに指定する必要があります。
`QUALIFY`	`df.over(w).filter(...)`	はい
`EXPECTATIONS`	`@dp.expect`	はい、期待を含むマテリアライズドビューは段階的に更新できます。ただし、増分更新は、次の場合にはサポートされていません。マテリアライズドビューが期待値を含むビューから読み取るとき。マテリアライズドビューに `DROP` 予期があり、スキーマに `NOT NULL` 列が含まれている場合。
UDF	UDF	Databricks は、UDF の動作が変更されたときにそれを検出し、完全な更新を実行しようとします。ただし、他の関数またはライブラリを呼び出す UDF は、Databricks が認識しない方法で動作を変更する可能性があります。UDFの動作が変更された場合は、完全な更新を実行して、更新されたUDF完全なマテリアライズドビューに適用するのはユーザーの責任です。
非決定論的関数	非決定論的関数	非決定論的な時間関数は`WHERE`句でサポートされています。これには、 `current_date()` 、 `current_timestamp()` 、 `now()`などの関数が含まれます。その他の非決定論的関数はサポートされていません。x
サポートされていないソース	サポートされていないソース	ボリューム、外部ロケーション、フォーリンカタログなどのソースはサポートされていません。外部の Iceberg テーブルはサポートされていません。Unity Catalog で管理される Iceberg テーブルがサポートされています。

更新プログラムの更新の種類を決定する

マテリアライズドビューの更新のパフォーマンスを最適化するために、Databricks はコストモデルを使用して、更新に使用する手法を選択します。次の表では、これらの手法について説明します。

テクニック	増分更新か？	説明
`FULL_RECOMPUTE`	いいえ	マテリアライズドビューは完全に再計算されました
`NO_OP`	該当なし	マテリアライズドビューは更新されませんでした。これは、ベース・テーブルへの変更が検出されなかったためです。
次のいずれか: `ROW_BASED` `PARTITION_OVERWRITE` `WINDOW_FUNCTION` `APPEND_ONLY` `GROUP_AGGREGATE` `GENERIC_AGGREGATE`	はい	マテリアライズドビューは、指定された手法を使用して増分更新されました。

テクニック

増分更新か？

説明

FULL_RECOMPUTE

いいえ

マテリアライズドビューは完全に再計算されました

NO_OP

該当なし

マテリアライズドビューは更新されませんでした。これは、ベース・テーブルへの変更が検出されなかったためです。

次のいずれか:

ROW_BASED
PARTITION_OVERWRITE
WINDOW_FUNCTION
APPEND_ONLY
GROUP_AGGREGATE
GENERIC_AGGREGATE

はい

マテリアライズドビューは、指定された手法を使用して増分更新されました。

更新ポリシーも参照してください。

使用されている手法を確認するには、 event_typeがplanning_informationであるLakeflow Spark宣言型パイプラインイベントログをクエリします。

SQL
SELECT
  timestamp,
  message
FROM
  event_log(TABLE(<fully-qualified-table-name>))
WHERE
  event_type = 'planning_information'
ORDER BY
  timestamp desc;

<fully-qualified-table-name> を、カタログやスキーマなど、マテリアライズドビューの完全修飾名に置き換えます。

このコマンドの出力例:

timestamp	メッセージ
`2025-03-21T22:23:16.497+00:00`	`Flow 'sales' has been planned in :re[LDP] to be executed as ROW_BASED.`

パイプラインイベントログを参照してください。

更新ポリシー

デフォルトでは、Databricks はクエリ構造、データ変更量、システムコストモデリングに基づいて、最もコスト効率の高い更新戦略 (増分または完全) を自動的に選択します。このデフォルトの動作により、手動構成を必要とせずに更新パフォーマンスが最適化されます。

ただし、一部のワークロードでは、より予測可能な、または明示的に制御された更新動作が必要になります。これらのシナリオをサポートするには、マテリアライズドビュー定義でREFRESH POLICYを指定できます。更新ポリシーは、Databricks が増分更新を実行するかどうか、完全な更新にフォールバックする可能性があるかどうか、および完全な再計算を実行する代わりに更新が失敗するかどうかを制御します。

REFRESH POLICYを使用すると、システムを次のように構成できます。

AUTO (デフォルト) - コストに基づいた自動選択を使用します。Databricks は、効率性とクエリ機能に基づいて増分更新または完全更新を選択します。ほとんどのユーザーに推奨されます。
INCREMENTAL - 増分更新を優先します。Databricks は可能な場合は常に増分更新を実行します。クエリプランが増分更新をサポートしなくなった場合は、完全更新にフォールバックします。
INCREMENTAL STRICT - 増分更新を厳密に要求します。通常の操作中は増分更新が必要です。増分化が不可能な場合、更新または作成操作は失敗します。
FULL - 常に完全な更新を実行します。Databricks は、クエリが増分可能な場合でも、増分更新を実行することはありません。

SQL
Python

SQL
-- Create a materialized view with an incremental refresh policy
CREATE MATERIALIZED VIEW IF NOT EXISTS my_mv
REFRESH POLICY INCREMENTAL
AS SELECT a, sum(b) FROM my_catalog.example.my_table GROUP BY a;

Python
from pyspark import pipelines as dp

@dp.materialized_view(
  refresh_policy = 'incremental_strict'
)
def my_mv():
  return spark.read("main.default.source_table")

最適な更新ポリシーは、ワークロードの特性によって異なります。

AUTO ほとんどのワークロードに適しています。コストとパフォーマンスのバランスを取り、クエリの動作が変化すると自動的に適応します。
INCREMENTAL 増分更新が利点をもたらす場合には便利ですが、増分化が一時的に利用できなくなった場合 (ソーステーブルの行追跡がオフになっている場合など)、 Databricksが完全更新を実行しても問題ありません。
INCREMENTAL STRICT コスト、パフォーマンス、またはSLA制約を満たすために増分更新が必要であり、予期しない完全更新が受け入れられない場合に使用する必要があります。このポリシーは、完全な更新を続行するのではなく、問題をデバッグできるように、更新が失敗することを望む場合に推奨されます。
FULL 増分更新によるメリットがほとんどない場合、データセットが小さい場合、またはクエリ構造が頻繁に変更されて増分化が妨げられる場合に適しています。

詳細と構文については、 REFRESHポリシー句 (パイプライン) 」を参照するか、データセットがDatabricks SQLで定義されている場合はREFRESHポリシー句」を参照してください。

サーバレスコンピュートでの更新実行​

マテリアライズドビューの更新セマンティクスは何ですか?​

マテリアライズドビューのデータソースに関する考慮事項​

マテリアライズドビューを最適化します​

マテリアライズドビューの更新タイプ​

デフォルトの更新​

フルリフレッシュ​

マテリアライズドビューの増分更新のサポート​

更新プログラムの更新の種類を決定する​

更新ポリシー​