Databricks SQLでのマテリアライズドビューの使用
注:
マテリアライズドビューで AWS PrivateLink 接続を使用する必要がある場合は、Databricks の担当者にお問い合わせください。
この記事では、Databricks SQL でマテリアライズドビューを作成して使用し、パフォーマンスを向上させ、データ処理と分析のワークロードのコストを削減する方法について説明します。
重要
Databricks SQLで作成されたマテリアライズド・ビューは、サーバレス Delta Live Tables パイプラインによって支えられます。この機能を使用するには、ワークスペースがサーバレス パイプラインをサポートしている必要があります。
マテリアライズドビューとは
Databricks SQL では、マテリアライズドビューは、ユーザーがソース テーブル内の最新バージョンのデータに基づいて結果を事前に計算できるようにする Unity Catalog マネージド テーブルです。 Databricks のマテリアライズドビューは、マテリアライズドビューがクエリされるときに常に結果を更新するのではなく、返される結果がマテリアライズドビューが最後に更新されたときのデータの状態を反映するため、他の実装とは異なります。 マテリアライズドビューを手動で更新したり、更新をスケジュールしたりできます。
マテリアライズドビューは、抽出、変換、読み込み (ETL) 処理などのデータ処理ワークロード大きな効果を発揮します。 マテリアライズドビューは、コンプライアンス、修正、集計、または一般的なチェンジデータキャプチャ (CDC) のデータを処理するためのシンプルで宣言的な方法を提供します。 マテリアライズドビューは、低速なクエリーと頻繁に使用される計算を事前に計算することで、コストを削減し、クエリーの待機時間を改善します。 マテリアライズドビューでは、ベーステーブルのクリーニング、エンリッチメント、および非正規化による使いやすい変換も可能です。 マテリアライズドビューは、場合によってはベーステーブルから変更を段階的に計算できるため、簡素化されたエンドユーザーエクスペリエンスを提供しながらコストを削減できます。
マテリアライズド ビューは、 Delta Live Tables のリリースにより、Databricks で最初にサポートされました。 Databricks SQL ウェアハウスでマテリアライズドビューを作成すると、マテリアライズドビューへの更新を処理するためのサーバレス パイプラインが作成されます。更新操作の状態は、Delta Live Tables UI またはパイプライン API で監視できます。 マテリアライズド・ビューの更新のステータスの表示を参照してください。
要件
マテリアライズドビューを作成または更新するには:
Unity Catalog 対応の Pro または サーバレス SQLウェアハウスを使用する必要があります。
マテリアライズド ビューを更新するには、そのビューを作成したワークスペース内にいる必要があります。
ワークスペースは、 SQL Serverをサポートするリージョンにある必要があります。
サーバーの使用条件に同意している必要があります。
マテリアライズドビューをクエリするには:
マテリアライズドビューの所有者であるか、マテリアライズドビューに
SELECT
があり、その親にUSE SCHEMA
とUSE CATALOG
を持っている必要があります。次のコンピュート リソースのいずれかを使用する必要があります。
SQLウェアハウス
Delta Live Tables インターフェース
共有アクセスモードコンピュート
Databricks Runtime 15.4 以降のシングル ユーザー アクセス モード(ワークスペースがサーバレス コンピュートに対して有効になっている限り)。「シングル ユーザー コンピュートに対するきめ細かなアクセス制御」を参照してください。
マテリアライズド ビューの所有者である場合のみ: 14.3 から 15.3 までの Databricks Runtime を実行しているシングル ユーザー アクセス モード コンピュート リソース。
具体化されたビューの使用に関するその他の制限については、「 制限事項」を参照してください。
マテリアライズドビューを作成する
Databricks SQL 具体化されたビュー CREATE
操作では、Databricks SQL ウェアハウスを使用して、具体化されたビューでデータを作成および読み込みます。 実体化ビュー (Materialized View) の作成は同期操作であるため、 CREATE MATERIALIZED VIEW
コマンドは、実体化ビュー (Materialized View) が作成され、初期データの読み込みが終了するまでブロックされます。 サーバレス Delta Live Tables パイプラインは、 Databricks SQL マテリアライズドビューごとに自動的に作成されます。 具体化された ビューが更新されると 、Delta Live Tables パイプラインによって更新が処理されます。
実体化ビュー (Materialized View) を作成するには、 CREATE MATERIALIZED VIEW
文を使用します。 create ステートメントを送信するには、Databricks UI、 Databricks SQL CLI、または Databricks SQL API の SQL エディターを使用します。
注:
マテリアライズドビューを作成するユーザーはマテリアライズドビューの所有者であり、次の権限が必要です。
SELECT
マテリアライズドビューによって参照されるベーステーブルに対する権限。USE CATALOG
マテリアライズド ビューのソース テーブルを含むカタログとスキーマに対するUSE SCHEMA
権限。USE CATALOG
マテリアライズドビューのターゲットカタログとスキーマに対するUSE SCHEMA
権限。CREATE TABLE
マテリアライズドビューを含むスキーマに対するCREATE MATERIALIZED VIEW
権限。
次の例では、ベーステーブルbase_table1
からマテリアライズドビューmv1
を作成します。
CREATE MATERIALIZED VIEW mv1
AS SELECT
date,
sum(sales) AS sum_of_sales
FROM
base_table1
GROUP BY
date;
ベース・テーブルのカラム・コメントは、新しいマテリアライズド・ビューに自動的に反映されます。 スケジュール、テーブル制約、またはその他のプロパティを追加するには、マテリアライズドビューの定義を変更します。 マテリアライズドビューを定義するための構文の詳細については、 CREATE MATERIALIZED VIEWを参照してください。
ランタイム チャンネルを設定する
SQLウェアハウスを使用して作成されたマテリアライズド ビューは、Delta Live Tables パイプラインを使用して自動的に更新されます。Delta Live Tables パイプラインは、current
チャンネルの by デフォルト のランタイムを使用します。 リリースプロセスの詳細については 、Delta Live Tables リリースノートとリリースアップグレードプロセス を参照してください。
Databricks 本番運用ワークロードには、current
チャンネルを使用することをお勧めします。 新機能は最初に preview
チャンネルにリリースされます。 プレビュー Delta Live Tables チャンネルにパイプラインを設定して、preview
をテーブル プロパティとして指定することで、新機能をテストできます。 このプロパティは、テーブルを作成するとき、または ALTER ステートメントを使用してテーブルを作成した後に指定できます。
次のコード例は、CREATE ステートメントでチャンネルをプレビューに設定する方法を示しています。
CREATE OR REPLACE MATERIALIZED VIEW foo.default.bar
TBLPROPERTIES ('pipelines.channel' = 'preview') as
SELECT
*
FROM
range(5)
外部システムからデータを読み込む
Databricks 、サポートされているデータソースについては、レイクハウスフェデレーションを使用して外部データを読み込むことを推奨しています。 レイクハウスフェデレーションでサポートされていないソースからデータをロードする方法については、 「データ形式オプション」を参照してください。
マテリアライズドビューを更新する
REFRESH
操作では、実体化ビュー (Materialized View) が更新され、ベース・テーブルに対する最新の変更が反映されます。デフォルトでは、操作は同期的であるため、更新操作が完了するまでコマンドはブロックされます。 マテリアライズド・ビューを更新するには、 REFRESH MATERIALIZED VIEW
文を使用します。 このコマンドの 構文とパラメーターの詳細については 、 REFRESH(MATERIALIZED VIEW STREAMING TABLEまたは) を参照してください。SQL増分更新できる具体化されたビューの種類の詳細については、「 具体化されたビューの増分更新」を参照してください。
更新ステートメントを送信するには、SQL DatabricksUI の エディター、 ウェアハウスにアタッチされたノートブック、SQL Databricks SQLCLI、またはDatabricks SQLAPI を使用します。
マテリアライズドビューを REFRESH
できるのは所有者だけです。
次の例では、 mv1
マテリアライズド ビューを更新します。
REFRESH MATERIALIZED VIEW mv1;
Databricks SQL マテリアライズドビューはどのように更新されますか?
マテリアライズド ビューは、サーバレス Delta Live Tables パイプラインを自動的に作成して使用し、更新操作を処理します。 更新は Delta Live Tables パイプラインによって管理され、更新は具体化されたビューの作成に使用される Databricks SQL ウェアハウスによって監視されます。 具体化されたビューは、スケジュールに従って実行される Delta Live Tables パイプラインを使用して更新できます。 「トリガー パイプライン モードと継続的パイプライン モード」を参照してください。
注:
Delta Live Tables Deltaデータソース以外の変更を検出できません。 テーブルは引き続き定期的に更新されますが、コンピュート上で発生する増分処理が過度に再計算されて遅くなるのを防ぐために、トリガー間隔が長くなっています。
デフォルトでは、更新操作は同期的に実行されます。 また、更新操作を非同期的に実行するように設定することもできます。 これは、更新コマンドを使用して設定できます。 REFRESH (MATERIALIZED VIEW または STREAMING TABLE)を参照してください。各アプローチに関連する動作は次のとおりです。
同期: 同期更新は、更新が完了するまで他の操作を続行できません。 Databricks Jobs などのオーケストレーション ツールで更新操作を順序付ける場合など、次の手順で結果が必要な場合は、同期更新を使用します。ジョブで具体化されたビューを調整するには、 SQL タスクタイプを使用します。 「 ワークフローのスケジュールと調整」を参照してください。
非同期: 非同期更新では、具体化されたビューの更新が開始されると、 Delta Live Tables コンピュートでバックグラウンド ジョブが開始され、データの読み込みが完了する前にコマンドが戻ることができます。 この更新タイプでは、コマンドが開始されるウェアハウスのコンピュート容量が必ずしも操作に保持されるとは限らないため、コストを節約できます。 更新がアイドル状態になり、他のタスクが実行されていない場合、ウェアハウスはシャットダウンでき、更新は他の使用可能なコンピュートを使用します。 さらに、非同期更新では、複数の操作を並行して開始できます。
一部のクエリは、増分的に更新できます。 マテリアライズド・ビューの増分更新を参照してください。増分更新を実行できない場合は、代わりに完全更新が実行されます。
マテリアライズドビューの更新をスケジュールする
Databricks SQL マテリアライズド ビューは、定義されたスケジュールに基づいて自動的に更新されるように構成できます。 スケジュールを設定するには、次のいずれかの操作を行います。
SCHEDULE
句を使用してスケジュールを設定するときは、具体化ビューALTER MATERIALIZED VIEW 文を使用してスケジュールを追加します。
スケジュールが作成されると、更新を処理するように新しい Databricks ジョブが自動的に構成されます。
スケジュールを表示するには、次のいずれかの操作を行います。
Databricks UI の SQL エディターから
DESCRIBE EXTENDED
ステートメントを実行します。カタログエクスプローラを使用して、マテリアライズドビューを表示します。 スケジュールは、[ 概要 ] タブの [更新ステータス] の下に表示されます。 「カタログエクスプローラとは」を参照してください。
マテリアライズドビューの更新のステータスを表示する
注:
Delta Live Tables パイプラインはマテリアライズドビューの更新を管理するため、パイプラインの起動時間によって待機時間が発生します。 この時間は、更新の実行に必要な時間に加えて、秒から分単位になる場合があります。
マテリアライズドビューの更新の状態を表示するには、Delta Live Tables UI でマテリアライズドビューを管理するパイプラインを表示するか、マテリアライズドビューの DESCRIBE EXTENDED
コマンドによって返される 更新情報 を表示します。
また、Delta Live Tables イベント ログに対してクエリを実行して、マテリアライズドビューの更新履歴を表示することもできます。 「マテリアライズドビューの更新履歴を表示する」を参照してください。
クエリ履歴を使用した実行の監視
クエリ履歴ページを使用して、クエリの詳細とクエリ プロファイルにアクセスできるため、ストリーミング テーブルの更新を実行するために使用される Delta Live Tables パイプラインでパフォーマンスの低いクエリやボトルネックを特定するのに役立ちます。 クエリ履歴とクエリ プロファイルで使用できる情報の種類の概要については、「 クエリ履歴 」および 「クエリ プロファイル」を参照してください。
プレビュー
この機能はパブリックプレビュー段階です。ワークスペース管理者は、プレビューページからこの機能を有効にできます。「Databricksプレビューの管理」を参照してください。
実体化ビュー (Materialized View) に関連するすべての文がクエリ履歴に表示されます。 [ステートメント] ドロップダウン フィルターを使用して、任意のコマンドを選択し、関連するクエリを検査できます。すべての CREATE
ステートメントの後には、Delta Live Tables パイプラインで非同期的に実行される REFRESH
ステートメントが続きます。 通常、 REFRESH
ステートメントには、パフォーマンスの最適化に関する知見を提供する詳細なクエリ プランが含まれています。
クエリ履歴 UI で REFRESH
ステートメントにアクセスするには、次の手順を使用します。
左側のサイドバーで [ ] をクリックして、 クエリー履歴 UI を開きます。
「ステートメント」ドロップダウン・フィルターから「REFRESH」チェック・ボックスを選択します。
クエリステートメントの名前をクリックすると、クエリの実行時間や集計されたメトリクスなどの概要の詳細が表示されます。
[ クエリ プロファイルの表示 ] をクリックして、クエリ プロファイルを開きます。 クエリ プロファイルのナビゲーションの詳細については、「 クエリ プロファイル」を参照してください。
必要に応じて、[ クエリ ソース ] セクションのリンクを使用して、関連するクエリまたはパイプラインを開きます。
注:
具体化されたビューは、 プレビュー チャンネルを使用して実行するように設定する必要があります。 「ランタイム チャンネルを設定する」を参照してください。
CREATE MATERIALIZED VIEWを参照してください。
Delta Live Tables UIで更新状態を表示する
デフォルトにより、マテリアライズドビューを管理する Delta Live Tables パイプラインは Delta Live Tables UIに表示されません。 Delta Live Tables UI でパイプラインを表示するには、パイプラインの [パイプラインの詳細] ページへのリンクに直接アクセスする必要があります。リンクにアクセスするには:
DESCRIBE EXTENDED
ステートメントによって返されるテーブルの Latest 更新 行に示されているリンクをコピーして貼り付けます。マテリアライズドビューの系列 タブで 、[ パイプライン] をクリックし、パイプライン リンクをクリックします。
Databricks UI の SQL エディターを使用して送信された非同期 REFRESH
コマンドの場合は、[ 結果 ] パネルに表示されるリンクに従って更新状態を表示できます。
アクティブな更新を停止する
Delta Live Tables UI でアクティブな更新を停止するには、パイプラインの詳細ページで [停止]をクリックしてパイプラインの更新を停止します。 Databricks CLIまたはPOST /api/2.0/パイプライン/{パイプライン}/stopを使用して更新を停止することもできます。 パイプラインAPIでの操作。
マテリアライズドビューの定義を更新する
実体化ビュー (Materialized View) の定義を更新するには、まず実体化ビュー (Materialized View) を削除してから再作成する必要があります。
マテリアライズドビューのドロップ
注:
マテリアライズド ビューを削除するコマンドを送信するには、そのマテリアライズド ビューの所有者である必要があります。
実体化ビュー (Materialized View) を削除するには、 DROP VIEW 文を使用します。 DROP
ステートメントを送信するには、Databricks UI、Databricks SQL CLI、または Databricks SQL API の SQL エディターを使用できます。次の例では、 mv1
具体化ビュー (Materialized View) を削除します。
DROP MATERIALIZED VIEW mv1;
マテリアライズドビューの説明
マテリアライズド・ビューのカラムとデータ型を取得するには、 DESCRIBE
文を使用します。 マテリアライズドビューの列、データ型、およびメタデータ (所有者、ロケーション、作成時刻、更新ステータスなど) を取得するには、 DESCRIBE EXTENDED
を使用します。 DESCRIBE
ステートメントを送信するには、Databricks UI、Databricks SQL CLI、または Databricks SQL API の SQL エディターを使用します。
マテリアライズドビューの所有者を変更する
具体化されたビューの所有者を変更できるのは、メタストア管理者とワークスペース管理者の両方である場合です。 具体化されたビューでは、Delta Live Tables パイプラインが自動的に作成され、使用されて変更が処理されます。 次のステップを使用して、マテリアライズドビューの所有者を変更します。
マテリアライズドビューの系列 タブで 、[ パイプライン] をクリックし、パイプライン リンクをクリックします。
クリックパイプライン名の右側にあるケバブ メニューをクリックし、 [権限]をクリックします。 これにより、権限ダイアログが開きます。
現在の所有者の名前の右側にある [ x ] をクリックして、現在の所有者を削除します。
入力を開始して、使用可能なユーザーのリストをフィルタリングします。 新しいパイプラインの所有者となるユーザーをクリックします。
「 保存 」をクリックして変更を保存し、ダイアログを閉じます。
パイプラインで定義されたマテリアライズド ビューを含むすべてのパイプライン アセットは、新しいパイプライン所有者が所有します。 今後のすべての更新は、新しい所有者の ID を使用して実行されます。
マテリアライズドビューへのアクセスを制御する
マテリアライズドビューは、豊富なアクセス制御をサポートして、潜在的にプライベートなデータを公開しないようにしながら、データ共有をサポートします。 マテリアライズドビューの所有者は、他のユーザーに SELECT
権限を付与できます。 マテリアライズドビューへの SELECT
アクセス権を持つユーザーは、マテリアライズドビューによって参照されるテーブルへの SELECT
アクセス権を必要としません。 このアクセス制御により、基になるデータへのアクセスを制御しながら、データを共有できます。
マテリアライズドビューへの権限の付与
実体化ビュー (Materialized View) へのアクセス権を付与するには、 GRANT
ステートメントを使用します。
GRANT
privilege_type [, privilege_type ] ...
ON <mv_name> TO principal;
privilege_typeは次のとおりです。
SELECT
- ユーザーはマテリアライズドビューSELECT
できます。REFRESH
- ユーザーはマテリアライズドビューREFRESH
できます。 更新は所有者の権限を使用して実行されます。
次の例では、マテリアライズド ビューを作成し、ユーザーに選択権限と更新権限を付与します。
CREATE MATERIALIZED VIEW <mv_name> AS SELECT * FROM <base_table>;
GRANT SELECT ON <mv_name> TO user;
GRANT REFRESH ON <mv_name> TO user;
マテリアライズドビューからの権限の取り消し
マテリアライズドビューからのアクセスを取り消すには、 REVOKE
ステートメントを使用します。
REVOKE
privilege_type [, privilege_type ]
ON <name> FROM principal;
ベーステーブルに対する SELECT
権限が、マテリアライズドビューの所有者またはマテリアライズドビューに対する SELECT
権限を付与されている他のユーザーから取り消された場合、またはベーステーブルが削除された場合、マテリアライズドビューの所有者またはアクセス権を付与されたユーザーは、引き続きマテリアライズドビューをクエリできます。 ただし、次の動作が発生します。
マテリアライズドビューの所有者、またはマテリアライズドビューにアクセスできなくなった他のユーザーは、そのマテリアライズドビュー
REFRESH
できなくなり、マテリアライズドビューは古くなります。スケジュールで自動化されている場合、次にスケジュールされている
REFRESH
は失敗するか、実行されません。
次に、mv1
から SELECT
権限を取り消します。
REVOKE SELECT ON mv1 FROM user1;
チェンジデータフィードを有効にする
特定の高度な使用例を除き、マテリアライズド ビューのベース テーブルにはチェンジデータ フィードが必要です。 基本テーブルでチェンジデータフィードを有効にするには、次の構文を使用してdelta.enableChangeDataFeed
テーブル プロパティを設定します。
ALTER TABLE table1 SET TBLPROPERTIES (delta.enableChangeDataFeed = true);
マテリアライズドビューの更新履歴を表示する
現在および過去の更新を含む、マテリアライズドビューに対する REFRESH
操作の状態を表示するには、Delta Live Tables イベント ログをクエリーします。
SELECT
*
FROM
event_log(TABLE(<fully-qualified-table-name>))
WHERE
event_type = "update_progress"
ORDER BY
timestamp desc;
<fully-qualified-table-name>
を、カタログとスキーマを含む実体化ビュー (Materialized View) の完全修飾名に置き換えます。
「Delta Live Tables イベント ログとは何ですか?」を参照してください。
制限事項
コンピュートおよびワークスペースの要件については、 「要件」を参照してください。
マテリアライズドビューは、ID 列または代理キーをサポートしていません。
実体化ビュー (Materialized View) が
NULL
可能なカラムに対して合計集計を使用し、そのカラムにNULL
値しか残っていない場合、マテリアライズドビュー (Materialized View) の結果の集計値はNULL
ではなく 0 になります。マテリアライズド ビューからチェンジデータ フィードを読み取ることはできません。
タイムトラベルクエリは、マテリアライズドビューではサポートされていません。
マテリアライズドビューをサポートする基になるファイルには、マテリアライズドビューの定義に表示されないアップストリームテーブルのデータ (個人を特定できる可能性のある情報を含む) が含まれる場合があります。 このデータは、マテリアライズドビューの増分更新をサポートするために、基になるストレージに自動的に追加されます。 マテリアライズドビューの基になるファイルは、マテリアライズドビュー スキーマの一部ではないアップストリーム テーブルからのデータを公開するリスクがあるため、Databricks では、基になるストレージを信頼されていないダウンストリーム コンシューマーと共有しないことをお勧めします。 たとえば、マテリアライズドビューの定義に
COUNT(DISTINCT field_a)
句が含まれているとします。 マテリアライズドビュー定義には aggregateCOUNT DISTINCT
句のみが含まれていますが、基になるファイルにはfield_a
の実際の値のリストが含まれます。