CREATE MATERIALIZED VIEW (パイプライン)

マテリアライズドビュー は、事前計算された結果をクエリに使用でき、入力の変更を反映するために更新できるビューです。マテリアライズドビューはパイプラインで裏打ちされています。マテリアライズドビューが更新されるたびに、上流のデータセットの変更を反映するためにクエリ結果が再計算されます。マテリアライズドビューは手動またはスケジュールに基づいて更新できます。

更新を実行またはスケジュールする方法の詳細については、「パイプラインの更新を実行する」を参照してください。

構文

CREATE [OR REFRESH] [PRIVATE] MATERIALIZED VIEW
  view_name
  [ column_list ]
  [ view_clauses ]
  AS query

column_list
   ( { column_name column_type column_properties } [, ...]
    [ CONSTRAINT expectation_name EXPECT (expectation_expr)
      [ ON VIOLATION { FAIL UPDATE | DROP ROW } ] ] [, ...]
    [ , table_constraint ] [...] )

   column_properties
      { NOT NULL | COMMENT column_comment | column_constraint | MASK clause } [ ... ]

view_clauses
  { USING { DELTA | ICEBERG } |
    PARTITIONED BY (col [, ...]) |
    CLUSTER BY clause |
    LOCATION path |
    COMMENT view_comment |
    TBLPROPERTIES clause |
    REFRESH POLICY refresh_clause |
    WITH { ROW FILTER clause } } [...]

パラメーター

REFRESH

指定されている場合は、ビューを作成するか、既存のビューとその内容を更新します。
プライベート

プライベートマテリアライズドビューを作成します。プライベートマテリアライズドビューは、カタログに公開したくないパイプライン内の中間テーブルとして役立ちます。
- これらはカタログに追加されず、定義パイプライン内でのみアクセスできます。
- カタログ内の既存のオブジェクトと同じ名前を持つことができます。パイプライン内で、プライベートマテリアライズドビューとカタログ内のオブジェクトの名前が同じ場合、その名前への参照はプライベートマテリアライズドビューに解決されます。
- プライベートマテリアライズドビューは、単一の更新ではなく、パイプラインの存続期間全体にわたってのみ保持されます。
プライベートマテリアライズドビューは以前にTEMPORARYで作成されました。
ビュー名

新しく作成されたビューの名前。完全修飾ビュー名は一意である必要があります。

プライベートマテリアライズドビューには、カタログで公開されているオブジェクトと同じ名前を付けることができます。
列リスト

オプションで、ビューのクエリ結果の列にラベルを付けます。列リストを指定する場合、列エイリアスの数はクエリ内の式の数と一致する必要があります。列リストが指定されていない場合、エイリアスはビューの本体から派生されます。
- 列名
  
  列名は一意であり、クエリの出力列にマップされる必要があります。
- 列タイプ
  
  列のデータ型を指定します。Databricksでサポートされているすべてのデータ型がマテリアライズドビューでサポートされているわけではありません。
- 列コメント
  
  列を説明するオプションのSTRINGリテラル。このオプションはcolumn_typeと一緒に指定する必要があります。列タイプが指定されていない場合、列コメントはスキップされます。
- 列制約
  
  マテリアライズドビューの列に情報提供の主キーまたは情報提供の外部キー制約を追加します。
- MASK句
  
  機密データを匿名化するための列マスク機能を追加します。行フィルターと列マスクを参照してください。
- CONSTRAINT expectation_name EXPECT (expectation_expr) [ ON VIOLATION { FAIL UPDATE | DROP ROW } ]
  
  マテリアライズドビューにデータ品質エクスペクテーションを追加します。これらのデータ品質エクスペクテーションは、時間の経過と共に追跡し、マテリアライズドビューのイベントログを通じてアクセスできます。FAIL UPDATEエクスペクテーションがある場合、マテリアライズドビューの作成時と更新時の両方で処理が失敗します。DROP ROWエクスペクテーションが満たされない場合、行全体が削除されます。「パイプラインのエクスペクテーションを使用してデータ品質を管理する」を参照してください。
  
  expectation_expr リテラル、マテリアライズドビュー内の列識別子、および決定論的な組み込みSQL関数または演算子で構成できます。ただし、次の例外があります：
  - 集計関数
    - 分析ウィンドウ関数
    - ランキングウィンドウ関数
    - テーブル値ジェネレーター関数
  また、expr にはサブクエリを含めることはできません。
  
  定義に期待値が含まれるマテリアライズドビューは、更新ごとに完全に更新され、増分更新をサポートしていません。増分更新を使用するには、エクスペクテーションを削除するか、マテリアライズドビューの定義外で適用してください。
テーブル制約

スキーマを指定するときに、主キーと外部キーを定義できます。制約は情報提供であり、強制されるものではありません。SQL 言語リファレンスのCONSTRAINT 句を参照してください。

注記

テーブル制約を定義するには、パイプラインが Unity Catalog 対応のパイプラインである必要があります。

ビュー句

必要に応じて、マテリアライズドビューのパーティション化、コメント、およびユーザー定義プロパティを指定します。各サブ句は 1 回だけ指定できます。
- デルタの使用
  
  データ形式を指定します。デフォルトはDELTAです。
  
  この句はオプションです。
- ICEBERGを使用
  
  外部 Iceberg リーダーと互換性のあるマテリアライズドビューを作成します。マテリアライズドビューの作成後、REPAIR TABLE <mv_name> SYNC METADATAを実行してください。マテリアライズドビューは、外部 Iceberg リーダー向けの読み取り専用です。「外部 Iceberg リーダーと互換性のあるマテリアライズドビューを作成」を参照してください。

備考

プレビュー

マネージドIcebergマテリアライズドビューはパブリックプレビュー段階です。この機能を有効にするには、Databricksアカウントチームにお問い合わせください。

パーティション分割

テーブルのパーティション分割に使用する 1 つ以上の列のオプションのリスト。CLUSTER BYと相互に排他的です。

リキッドクラスタリングは、クラスタリングに最適化された柔軟なソリューションを提供します。パイプラインにはPARTITIONED BYではなくCLUSTER BYを使用することを検討してください。
クラスター BY

テーブルで流動クラスタリングを有効にし、クラスタリングキーとして使用する列を定義します。 CLUSTER BY AUTOで自動流体クラスタリングを使用すると、 Databricksインテリジェントにクラスタリングキーを選択してクエリのパフォーマンスを最適化します。 PARTITIONED BYと相互に排他的です。

テーブルにリキッドクラスタリングを使用するを参照してください。
場所

テーブルデータのオプションの格納場所。設定されていない場合、システムはデフォルトでパイプラインの保存場所を使用します。

このオプションは、 Hive metastoreに公開する場合にのみ使用できます。 Unity Catalog では、場所は自動的に管理されます。
comment

テーブルの説明（オプション）。
テーブルプロパティ

テーブルのテーブルプロパティのオプションリスト。
REFRESHポリシー

(ベータ) 必要に応じて、マテリアライズドビューの更新ポリシーを設定します。

REFRESHポリシー条項 (パイプライン)を参照してください。
行フィルター付き

テーブルに行フィルター機能を追加します。そのテーブルに対する今後のクエリでは、関数が TRUE と評価された行のサブセットが返されます。これは、関数が呼び出し元ユーザーの ID とグループメンバーシップを検査して、特定の行をフィルター処理するかどうかを決定できるため、きめ細かなアクセス制御に役立ちます。

ROW FILTER節を参照してください。
クエリー

テーブルのデータセットを定義するクエリ。

必要な権限

パイプラインの実行ユーザーには、次の権限が必要です。

SELECT マテリアライズドビューが参照する実表に対する権限。
USE CATALOG 親カタログに対する権限と親スキーマに対するUSE SCHEMA権限。
CREATE TABLE マテリアライズドビューを含むスキーマに対するCREATE MATERIALIZED VIEW権限。

マテリアライズドビューが定義されているパイプラインをユーザーが更新できるようにするには、次のものが必要です。

USE CATALOG 親カタログに対する権限と親スキーマに対するUSE SCHEMA権限。
マテリアライズドビューの所有権、またはマテリアライズドビューに対するREFRESH権限。
マテリアライズドビューの所有者は、マテリアライズドビューによって参照されるベーステーブルに対するSELECT権限を持っている必要があります。

ユーザーが結果のマテリアライズドビューをクエリできるようにするには、次のものが必要です。

USE CATALOG 親カタログに対する権限と親スキーマに対するUSE SCHEMA権限。
SELECT マテリアライズドビューに対する特権。

制限事項

NULL 可能な列に対するsum集計を含むマテリアライズドビューで、その列から最後の非 NULL 値が削除され、その列にNULL値のみが残る場合、マテリアライズドビューの結果の集計値は、 NULLではなく 0 を返します。
列参照には別名は必要ありません。列以外の参照式には、次の例のように別名が必要です。
- 許可された： SELECT col1, SUM(col2) AS sum_col2 FROM t GROUP BY col1
- 許可されていません: SELECT col1, SUM(col2) FROM t GROUP BY col1
NOT NULL 有効なステートメントにするには、 PRIMARY KEYとともに手動で指定する必要があります。
マテリアライズドビューは、ID 列または代理キーをサポートしていません。
マテリアライズドビューは、 OPTIMIZEとVACUUMコマンドをサポートしていません。メンテナンスは自動的に行われます。
テーブルの名前変更や所有者の変更はサポートされていません。
ジェネレーテッドカラム、ID 列、およびデフォルト列はサポートされていません。

例

SQL
-- Create a materialized view by reading from an external data source, using the default schema:
CREATE OR REFRESH MATERIALIZED VIEW taxi_raw
AS SELECT * FROM read_files("/databricks-datasets/nyctaxi/sample/json/")

-- Create a materialized view by reading from a dataset defined in a pipeline:
CREATE OR REFRESH MATERIALIZED VIEW filtered_data
AS SELECT
  ...
FROM taxi_raw

-- Specify a schema and clustering columns for a table:
CREATE OR REFRESH MATERIALIZED VIEW sales
(customer_id STRING,
  customer_name STRING,
  number_of_line_items STRING,
  order_datetime STRING,
  order_number LONG,
  order_day_of_week STRING GENERATED ALWAYS AS (dayofweek(order_datetime))
) CLUSTER BY (order_day_of_week, customer_id)
COMMENT "Raw data on sales"
AS SELECT * FROM ...

-- Use automatic liquid clustering to let Databricks choose the clustering columns:
CREATE OR REFRESH MATERIALIZED VIEW sample_trips
CLUSTER BY AUTO
AS SELECT pickup_zip, fare_amount FROM samples.nyctaxi.trips

-- Specify partition columns for a table:
CREATE OR REFRESH MATERIALIZED VIEW sales
(customer_id STRING,
  customer_name STRING,
  number_of_line_items STRING,
  order_datetime STRING,
  order_number LONG,
  order_day_of_week STRING GENERATED ALWAYS AS (dayofweek(order_datetime))
) PARTITIONED BY (order_day_of_week)
COMMENT "Raw data on sales"
AS SELECT * FROM ...

-- Specify a primary and foreign key constraint for a table:
CREATE OR REFRESH MATERIALIZED VIEW sales
(customer_id STRING NOT NULL PRIMARY KEY,
  customer_name STRING,
  number_of_line_items STRING,
  order_datetime STRING,
  order_number LONG,
  order_day_of_week STRING GENERATED ALWAYS AS (dayofweek(order_datetime)),
  CONSTRAINT fk_customer_id FOREIGN KEY (customer_id) REFERENCES main.default.customers(customer_id)
)
COMMENT "Raw data on sales"
AS SELECT * FROM ...

-- Specify a row filter and mask clause for a table:
CREATE OR REFRESH MATERIALIZED VIEW sales (
  customer_id STRING MASK catalog.schema.customer_id_mask_fn,
  customer_name STRING,
  number_of_line_items STRING COMMENT 'Number of items in the order',
  order_datetime STRING,
  order_number LONG,
  order_day_of_week STRING GENERATED ALWAYS AS (dayofweek(order_datetime))
)
COMMENT "Raw data on sales"
WITH ROW FILTER catalog.schema.order_number_filter_fn ON (order_number)
AS SELECT * FROM sales_bronze

構文​

パラメーター​

必要な権限​

制限事項​

例​

構文

パラメーター

必要な権限

制限事項

例