スタンドアロンのマテリアライズドビューを使用する

スタンドアロンのマテリアライズドビューは、クエリ結果を事前に計算してキャッシュすることで、データ処理および分析ワークロードのパフォーマンスを向上させ、コストを削減します。

スタンドアロンのマテリアライズドビューは、 Databricks SQLウェアハウス、またはサーバーレス一般コンピュートで実行されているノートブックから作成および更新できます。 2 つのコンピュートオプションの違いの詳細については、「スタンドアロンパイプラインの要件」を参照してください。

ノートブックからPythonを使用してスタンドアロンのマテリアライズドビューを作成および更新するには、スタンドアロンパイプラインでPythonを使用するを参照してください。

スタンドアロン型のマテリアライズドビューとは何ですか？

スタンドアロンのマテリアライズドビューは、Lakeflowパイプラインの外部で定義され、クエリーの結果を物理的に格納するUnity Catalog マネージドテーブルです。オンデマンドで結果をコンピュートする標準ビューとは異なり、マテリアライズドビューは結果をキャッシュし、基になるソーステーブルの変更に応じて、スケジュールに従って、または自動的に更新します。

マテリアライズドビューは、抽出、変換、ロード ( ETL ) 処理などのデータ処理ワークロードに適しています。マテリアライズドビューは、コンプライアンス、修正、集計、または一般的な変更データキャプチャ ( CDC ) のデータを処理するためのシンプルで宣言的な方法を提供します。マテリアライズドビューでは、ベーステーブルのクリーニング、強化、非正規化により、使いやすい変換も可能になります。マテリアライズドビューは、高価なクエリや頻繁に使用されるクエリを事前に計算することで、クエリのレイテンシとリソース消費を削減します。多くの場合、ソーステーブルから変更を段階的にコンピュートすることができ、効率とエンドユーザーエクスペリエンスがさらに向上します。

マテリアライズドビューの一般的な使用例は次のとおりです。

エンドユーザーのクエリ遅延を最小限に抑えながら、BI ダッシュボードを最新の状態に保ちます。
シンプルなSQLロジックで複雑なETLオーケストレーションを削減します。
複雑で階層化された変換を構築します。
最新の知見や常に安定したパフォーマンスが求められるユースケース。

Databricks SQLウェアハウスでマテリアライズドビューを作成すると、マテリアライズドビューの作成と更新を処理するためのサーバレスパイプラインが作成されます。カタログエクスプローラーで更新操作のステータスを監視できます。DESCRIBE EXTENDEDで詳細を表示を参照してください。

要件

スタンドアロンマテリアライズドビューの作成、更新、クエリに関するコンピュートオプション、権限、その他の要件については、「スタンドアロンパイプラインの要件」を参照してください。

具体化されたビューの使用に関するその他の制限については、制限事項を参照してください。

マテリアライズドビューの作成

スタンドアロンのマテリアライズドビュー CREATE 操作では、Databricks SQL ウェアハウスを使用して、マテリアライズドビューでデータを作成および読み込みます。マテリアライズドビューの作成は同期操作であるため、マテリアライズドビューが作成され、初期データの読み込みが完了するまで、 CREATE MATERIALIZED VIEW コマンドはブロックされます。サーバレスパイプラインは、スタンドアロンマテリアライズドビューごとに自動的に作成されます。マテリアライズドビューが更新されると、パイプラインは更新を処理します。

マテリアライズドビューを作成するには、 CREATE MATERIALIZED VIEWステートメントを使用します。作成ステートメントを送信するには、Databricks UI の SQL エディター、 Databricks SQL CLI 、またはDatabricks SQL APIを使用します。

マテリアライズドビューを作成したユーザーがマテリアライズドビューの所有者となります。

アドホックなマテリアライズドビュー

次の例では、ベーステーブルbase_table1からマテリアライズドビューmv1を作成します。

SQL
-- This query defines the materialized view:
CREATE OR REPLACE MATERIALIZED VIEW mv1
AS SELECT
  date,
  sum(sales) AS sum_of_sales
FROM
  base_table1
GROUP BY
  date;

トリガー時のマテリアライズドビュー

次の例では、 TRIGGER ON UPDATEを使用して上流のソースデータが変更されるたびに自動的に更新されるマテリアライズドビューを作成します。このアプローチは、本番運用ワークロード、特にアップストリームの依存関係が予測可能なスケジュールで実行されない場合に使用します。

SQL
-- Refresh automatically when the source table is updated.
CREATE OR REPLACE MATERIALIZED VIEW mv_trigger
  TRIGGER ON UPDATE
AS SELECT
  date,
  sum(sales) AS sum_of_sales
FROM
  base_table1
GROUP BY
  date;

スケジュールされたマテリアライズドビュー

次の例では、UTC 3:30 AM に毎日の CRON 更新スケジュールでマテリアライズドビューを作成します。SELECT句内の式と集計は、エイリアスを使用する必要があります。GROUP BY列参照にエイリアスは不要です。

SQL
-- Refresh nightly at 3:30 AM UTC.
-- The cron expression uses six space-separated fields: seconds minutes hours day-of-month month day-of-week
-- Use '?' for either day-of-month or day-of-week to leave it unspecified.
CREATE OR REPLACE MATERIALIZED VIEW daily_revenue_by_region
  SCHEDULE CRON '0 30 3 * * ?' AT TIME ZONE 'UTC'
AS SELECT
  date_trunc('day', order_time) AS sales_date,
  region,
  sum(revenue) AS total_revenue,
  count(*) AS order_count
FROM
  orders
GROUP BY sales_date, region;

SCHEDULE EVERY構文や追加のCRONの例など、その他のスケジュールオプションについては、「スケジュール更新」を参照してください。

CREATE OR REPLACE MATERIALIZED VIEW ステートメントを使用してマテリアライズドビューを作成すると、最初のデータ更新と入力がすぐに開始されます。これは SQLウェアハウスコンピュートを消費しません。代わりに、サーバレスパイプラインが作成とその後の更新に使用されます。スタンドアロンマテリアライズドビューはどのように更新されますか？を参照してください。

ベーステーブルの列コメントは、作成時にのみ新しいマテリアライズドビューに自動的に伝播されます。スケジュール、テーブル制約、またはその他のプロパティを追加するには、マテリアライズドビュー定義 ( SQLクエリ) を変更します。

同じSQLステートメントが、次回またはスケジュールに従って呼び出された場合、マテリアライズドビューを更新します。この方法で実行された更新は、他の更新と同じように機能します。詳細については、「マテリアライズドビューの更新」を参照してください。

マテリアライズドビューの構成の詳細については、「スタンドアロンのマテリアライズドビューの構成」を参照してください。マテリアライズドビューを作成するための完全な構文については、 CREATE MATERIALIZED VIEWを参照してください。さまざまな形式や場所からデータを読み込む方法については、「パイプラインでデータを読み込む」を参照してください。

外部システムからデータを読み込む

マテリアライズドビューは、サポートされているデータソースに対してレイクハウスフェデレーションを使用して外部データ上に作成できます。レイクハウスフェデレーションでサポートされていないソースからのデータの読み込みについては、「データ形式オプション」を参照してください。例を含むデータのロードに関する一般情報については、「パイプラインでのデータのロード」を参照してください。

機密データを非表示にする

マテリアライズドビューを使用すると、テーブルにアクセスするユーザーから機密データを非表示にすることができます。これを行う 1 つの方法は、最初からそのデータを含まないようにクエリを作成することです。ただし、クエリを実行するユーザーの権限に基づいて列をマスクしたり、行をフィルター処理したりすることもできます。たとえば、グループHumanResourcesDeptに属していないユーザーに対してtax_id列を非表示にすることができます。これを行うには、マテリアライズドビューの作成時にROW FILTERおよびMASK構文を使用します。詳細については、「行フィルターと列マスク」を参照してください。

マテリアライズドビューを更新する

マテリアライズドビューを更新すると、ビューが更新され、更新時のベーステーブルへの最新の変更が反映されます。

マテリアライズドビューを定義する場合、 CREATE OR REPLACE MATERIALIZED VIEWステートメントはビューの作成と、スケジュールされた更新の両方に使用されます。 REFRESH MATERIALIZED VIEWステートメントを使用して、クエリを再度指定することなくマテリアライズドビューを更新することもできます。このコマンドのSQL構文とパラメーターの詳細については、REFRESH ( MATERIALIZED VIEWまたはSTREAMING TABLE )を参照してください。増分更新できるマテリアライズドビューのタイプの詳細については、マテリアライズドビューの増分更新を参照してください。

更新ステートメントを送信するには、Databricks UI のSQLエディター、SQL ウェアハウスにアタッチされたノートブック、Databricks SQL CLI、またはDatabricks SQL API を使用します。

所有者、およびテーブルに対するREFRESH権限を付与されているユーザーは、マテリアライズドビューを更新できます。

次の例では、 mv1マテリアライズドビューを更新します。

SQL
REFRESH MATERIALIZED VIEW mv1;

デフォルトでは操作は同期的であり、更新操作が完了するまでコマンドはブロックされます。非同期的に更新するには、 ASYNCキーワードを追加します。

SQL
REFRESH MATERIALIZED VIEW mv1 ASYNC;

更新をスケジュールする方法については、「更新のスケジュール」を参照してください。

スタンドアロンのマテリアライズドビューはどのように更新されますか？

マテリアライズドビューは、サーバレスパイプラインを自動的に作成して使用し、更新操作を処理します。更新はパイプラインによって管理され、更新はマテリアライズドビューの作成に使用されるDatabricks SQL ウェアハウスによって監視されます。マテリアライズドビューは、スケジュールに従って実行されるパイプラインを使用して更新できます。スタンドアロンのマテリアライズドビューは、常にトリガーモードで実行されます。トリガーパイプラインモードと継続的パイプラインモードを参照してください。

スケジュールされた更新では更新通知を設定でき、更新のパフォーマンスモードを設定できます。

増分更新

マテリアライズドビューは、2 つの方法のいずれかを使用して更新されます。

増分更新 - システムはビューのクエリを評価して、最後の更新後に発生した変更を識別し、新しいデータまたは変更されたデータのみをマージします。
完全更新 - 増分更新が実行できない場合、またはコスト効率が悪い場合、システムはクエリ全体を実行し、マテリアライズドビュー内の既存のデータを新しい結果に置き換えます。

クエリの構造とソースデータの種類によって、増分更新がサポートされるかどうかが決まります。増分更新をサポートするために、ソースデータは行追跡が有効なDeltaテーブルに保存する必要があります。増分更新のパフォーマンス向上のため、チェンジデータフィードを有効にすることをお勧めします。クエリが増分可能かどうかを確認するには、Databricks SQL EXPLAIN CREATE MATERIALIZED VIEW ステートメントを使用します。マテリアライズドビューを作成したら、その更新動作を監視して、増分更新されるか、完全更新されるかを確認できます。

デフォルトでは、Databricks はコストモデルを使用して、完全更新と増分更新の間でよりコスト効率の高いオプションを選択します。マテリアライズドビューのSQL定義でREFRESH POLICYを設定することで、この動作をオーバーライドして増分更新または完全更新を優先できます。

更新タイプの詳細と増分更新の最適化方法については、「マテリアライズドビューの増分更新」を参照してください。

非同期更新

デフォルトでは、更新操作は同期的に実行されます。更新操作を非同期的に実行するように設定することもできます。これは、更新コマンドでASYNCキーワードを使用して設定できます。 REFRESH (MATERIALIZED VIEW または STREAMING TABLE)を参照してください。それぞれのアプローチに関連する動作は次のとおりです。

同期: 同期更新は、更新が完了するまで他の操作を続行できません。Lakeflow ジョブなどのオーケストレーションツールで更新操作を順序付ける場合など、次の手順で結果が必要な場合は、同期更新を使用します。ジョブを使用してマテリアライズドビューを調整するには、 SQL タスクの種類を使用します。Lakeflowジョブを参照してください。
非同期 : 非同期更新は、マテリアライズドビューの更新が開始されるときに、サーバーレスコンピュートでバックグラウンドジョブを開始し、データのロードが完了する前にコマンドが戻ることができるようにします。この更新タイプは、コマンドが開始されるウェアハウスでの操作が必ずしもコンピュート容量を保持する必要がないため、コストを節約できます。更新がアイドル状態になり、他のタスクが実行されていない場合、更新が他の利用可能なコンピュートを使用している間、ウェアハウスはシャットダウンできます。さらに、非同期更新では複数の操作を並行して開始することがサポートされます。

削除ベクトルが有効になっているマテリアライズドビューからレコードを完全に削除します

備考

プレビュー

マテリアライズドビューでの REORG ステートメントのサポートは、パブリックプレビュー段階です。

注記

マテリアライズドビューでREORGステートメントを使用するには、 Databricks Runtime 15.4 以降が必要です。
REORGステートメントは任意のマテリアライズドビューで使用できますが、削除が有効になっているマテリアライズドビューからレコードを削除する場合にのみ必要です。このコマンドは、下り通路を有効にせずにマテリアライズドビューで使用した場合には効果がありません。

GDPR コンプライアンスなど、削除が有効になっているマテリアライズドビューの基盤となるストレージからレコードを物理的に削除するには、 GDPRビューのデータに対してvacuum操作が確実に実行されるように追加の手順を実行する必要があります。

レコードを物理的に削除するには:

マテリアライズドビューに対してREORGステートメントを実行し、 APPLY (PURGE)パラメーターを指定します。たとえばREORG TABLE <materialized-view-name> APPLY (PURGE); 。REORG TABLEを参照してください。
マテリアライズドビューのデータ保存期間が経過するまで待ちます。デフォルトのデータ保持期間は 7 日間ですが、 delta.deletedFileRetentionDurationテーブルプロパティを使用して構成できます。「タイムトラベルクエリのデータ保持を構成する」を参照してください。
REFRESH マテリアライズドビュー。マテリアライズドビューの更新を参照してください。 REFRESH操作から 24 時間以内に、レコードが完全に削除されるようにするために必要なVACUUM操作を含むパイプラインメンテナンスタスクが自動的に実行されます。

マテリアライズドビューの削除

注記

マテリアライズドビューを削除するコマンドを送信するには、そのマテリアライズドビューの所有者であるか、マテリアライズドビューに対するMANAGE権限を持っている必要があります。

マテリアライズドビューを削除するには、 DROP VIEWステートメントを使用します。 DROPステートメントを送信するには、Databricks UI の SQL エディター、 Databricks SQL CLI 、またはDatabricks SQL API を使用できます。次の例では、 mv1マテリアライズドビューを削除します。

SQL
DROP MATERIALIZED VIEW mv1;

カタログエクスプローラーを使用してマテリアライズドビューをドロップすることもできます。

クリックサイドバーの カタログ 。
左側のカタログエクスプローラーツリーでカタログを開き、マテリアライズドビューが配置されているスキーマを選択します。
選択したスキーマの下にある テーブル アイテムを開き、[マテリアライズドビュー] をクリックします。
ケバブメニューで、 [削除] を選択します。

マテリアライズドビューのコストを理解する

CREATE MATERIALIZED VIEWまたはREFRESH MATERIALIZED VIEWを実行すると、 Databricks操作を処理するためのサーバレスパイプラインを自動的に作成して実行します。このパイプラインは、コマンドを送信したDatabricks SQLウェアハウスまたはコンピュートリソースから独立しています。ウェアハウスのクラスターのサイズは、更新に使用されるコンピュートやコストを制限しません。

更新パイプラインはServerlessコンピュートで実行され、Serverless LakeFlow Pipelines DBUとして課金されます。
サーバレスパイプラインはウェアハウスから独立しています。ウェアハウスからのコンピュートは、データ処理の実行ではなく、操作を調整するためにのみ使用されます。
コストは、 SQLウェアハウスのサイズではなく、処理されるデータの量によって決まります。
マテリアライズドビューの更新コストを監視するには、システムテーブルを使用します。マテリアライズドビューまたはストリーミングテーブルの DBU 消費量とは？を参照してください。
マテリアライズドビューを管理する基盤となるパイプラインを表示するには：
1. Databricksの左側のサイドバーにある [ジョブとパイプライン] をクリックします。
2. 「 パイプラインタイプ 」をクリックします。 次に、MV/ST を選択して、スタンドアロンのマテリアライズドビューを表示します。

注記

元のウェアハウスが専用コンピュートを使用している場合でも、サーバレスコンピュート料金が発生する場合があります。

行追跡を有効にする

Deltaテーブルからの増分更新をサポートするには、それらのソーステーブルに対して行追跡を有効にする必要があります。ソーステーブルを再作成する場合は、行トラッキングを再度有効にする必要があります。

次の例は、テーブルで行追跡を有効にする方法を示しています。

SQL
ALTER TABLE source_table SET TBLPROPERTIES (delta.enableRowTracking = true);

詳細については、 Databricks の行追跡を参照してください。

制限事項

コンピュートオプションとワークスペースの要件については、「スタンドアロンパイプラインの要件」を参照してください。
増分更新の要件については、「マテリアライズドビューの増分更新」を参照してください。
マテリアライズドビューは、ID 列または代理キーをサポートしていません。
マテリアライズドビューがNULL可能な列に対して合計集計を使用し、その列にNULL値のみが残っている場合、マテリアライズドビューの結果の集計値はNULLではなく 0 になります。
マテリアライズドビューからチェンジデータフィードを読み取ることはできません。
タイムトラベルクエリはマテリアライズドビューではサポートされていません。
マテリアライズドビューをサポートする基礎となるファイルには、マテリアライズドビュー定義には現れない上流テーブルのデータ (個人を特定できる可能性のある情報を含む) が含まれる場合があります。このデータは、マテリアライズドビューの増分更新をサポートするために、基礎となるストレージに自動的に追加されます。マテリアライズドビューの基礎となるファイルは、マテリアライズドビュースキーマの一部ではない上流のテーブルからデータを公開するリスクがあるため、 Databricks 、基礎となるストレージを信頼できない下流のコンシューマーと共有しないことをお勧めします。たとえば、マテリアライズドビューの定義にCOUNT(DISTINCT field_a)句が含まれているとします。マテリアライズドビュー定義には集計COUNT DISTINCT句のみが含まれていますが、基礎となるファイルにはfield_aの実際の値のリストが含まれています。
専用コンピュートでこれらの機能を使用する場合でも、サーバーレスコンピュート料金が発生する場合があります。
マテリアライズドビューで AWS PrivateLink 接続を使用する必要がある場合は、Databricks の担当者にお問い合わせください。

外部クライアントからマテリアライズドビューにアクセスする

オープンAPIsをサポートしていない外部のDelta LakeまたはIcebergクライアントからマテリアライズドビューにアクセスするには、互換Modeを使用できます。互換Modeは、 Delta LakeまたはIcebergクライアントからアクセスできるマテリアライズドビューの読み取り専用バージョンが作成されます。

スタンドアロン型のマテリアライズドビューとは何ですか？​

要件​

マテリアライズドビューの作成​

アドホックなマテリアライズドビュー​

トリガー時のマテリアライズドビュー​

スケジュールされたマテリアライズドビュー​

外部システムからデータを読み込む​

機密データを非表示にする​

マテリアライズドビューを更新する​

スタンドアロンのマテリアライズドビューはどのように更新されますか？​

増分更新​

非同期更新​

削除ベクトルが有効になっているマテリアライズドビューからレコードを完全に削除します​

マテリアライズドビューの削除​

マテリアライズドビューのコストを理解する​

行追跡を有効にする​

制限事項​

外部クライアントからマテリアライズドビューにアクセスする​

その他のリソース​