パイプラインで Unity Catalog を使用する

Databricks Lakeflow Spark宣言型パイプラインをUnity Catalogで構成することをお勧めします。新しく作成されたパイプラインでは、Unity Catalog の使用がデフォルトになります。

Unity Catalog で構成されたパイプラインは、定義されたすべてのマテリアライズドビューとストリーミングテーブルを、指定したカタログとスキーマに発行します。 Unity Catalog パイプラインは、他の Unity Catalog テーブルとボリュームから読み取ることができます。

Unity Catalog パイプラインによって作成されたテーブルの権限を管理するには、 GRANT と REVOKE を使用します。

注記

この記事では、パイプラインの現在のデフォルトの公開モードの機能について説明します。2025 年 2 月 5 日より前に作成されたパイプラインでは、従来の公開モードとLIVE仮想スキーマが使用される可能性があります。LIVE スキーマ (レガシー)を参照してください。

要件

Unity Catalogのターゲットスキーマにストリーミングテーブルとマテリアライズドビューを作成するには、スキーマと親カタログに対して次の権限が必要です。

USE CATALOG ターゲットカタログに対する権限。
CREATE MATERIALIZED VIEW パイプラインがマテリアライズドビューを作成する場合は、ターゲットスキーマに対するUSE SCHEMA権限。
CREATE TABLE パイプラインがストリーミングテーブルを作成する場合は、ターゲットスキーマに対するUSE SCHEMA権限。
パイプラインで新しいスキーマを作成する場合は、ターゲットカタログに対するUSE CATALOG権限とCREATE SCHEMA権限が必要です。

Unity カタログ対応パイプラインを実行するためのコンピュート要件:

コンピュートリソースは標準アクセスモードで構成する必要があります。専用コンピュートには対応しておりません。「アクセスモード」を参照してください。

Unity Catalog使用してパイプラインによって作成されたテーブル (ストリーミングおよびテーブルマテリアライズドビューを含む) をクエリするために必要なコンピュートには、次のいずれかが含まれます。

SQLウェアハウス
Databricks Runtime 13.3 LTS以降の標準アクセスモードコンピュート。
専用アクセスモードコンピュート (専用コンピュートで詳細なアクセス制御が有効になっている場合) (つまり、専用コンピュートがDatabricks Runtime 15.4 以降で実行されており、ワークスペースに対してサーバーレスコンピュートが有効になっている場合)。詳細については、専用コンピュートのきめ細かいアクセス制御を参照してください。
13.3 LTSから 15.3 までの専用アクセスモードコンピュートは、テーブル所有者がクエリを実行する場合のみです。

追加のコンピュート制限が適用されます。次のセクションを参照してください。

制限事項

パイプラインで Unity Catalog を使用する場合の制限は次のとおりです。

デフォルトでは、パイプラインの所有者とワークスペース管理者だけが、Unity カタログ対応のパイプラインを実行するコンピュートからドライバーのログを表示できます。他のユーザーがドライバーログにアクセスできるようにするには、管理者以外のユーザーが Unity Catalog 対応パイプラインからドライバーログを表示できるようにするを参照してください。
Hive metastoreを使用する既存のパイプラインは、 Unity Catalogを使用するようにアップグレードできません。 Hive metastoreに書き込む既存のパイプラインを移行するには、新しいパイプラインを作成し、データソースからデータを再取り込む必要があります。 Hive metastoreラインを複製してUnity Catalogパイプラインを作成する」を参照してください。
Unity Catalogパブリックプレビュー中に作成されたメタストアに接続されたワークスペースに、 Unity Catalog対応のパイプラインを作成することはできません。「権限継承へのアップグレード」を参照してください。
JAR はサポートされていません。サードパーティの Python ライブラリのみがサポートされます。「パイプラインの Python 依存関係の管理」を参照してください。
ストリーミングテーブルのスキーマを変更するデータ操作言語 (DML) クエリはサポートされていません。
パイプライン内で作成されたマテリアライズドビューは、そのパイプラインの外（別のパイプラインや下流のノートブックなど）でストリーミングソースとして使用することはできません。
マテリアライズドビューとストリーミングテーブルのデータは、それを含むスキーマの保存場所に保存されます。スキーマの保存場所が指定されていない場合、テーブルはカタログの保存場所に保存されます。スキーマとカタログの保存場所が指定されていない場合、テーブルはメタストアのルート保存場所に保存されます。
カタログエクスプローラーの履歴タブには、マテリアライズドビューの履歴は表示されません。
テーブルを定義するときに、 LOCATIONプロパティはサポートされません。
Unity Catalog対応パイプラインは Hive metastoreに発行できません。
Python UDF サポートはパブリックプレビュー段階です。

注記

マテリアライズドビューをサポートする基になるファイルには、マテリアライズドビューの定義に表示されないアップストリームテーブルのデータ (個人を特定できる可能性のある情報を含む) が含まれる場合があります。このデータは、マテリアライズドビューの増分更新をサポートするために、基になるストレージに自動的に追加されます。

マテリアライズドビューの基になるファイルは、マテリアライズドビュースキーマの一部ではないアップストリームテーブルからのデータを公開するリスクがあるため、Databricks では、基になるストレージを信頼されていないダウンストリームコンシューマーと共有しないことをお勧めします。

たとえば、マテリアライズドビュー定義にCOUNT(DISTINCT field_a)句が含まれているとします。マテリアライズドビュー定義には集計COUNT DISTINCT句のみが含まれていますが、基礎となるファイルにはfield_aの実際の値のリストが含まれます。

Hive metastoreとUnity Catalogパイプラインを併用できますか?

ワークスペースにはUnity Catalogと従来のHive metastoreを使用するパイプラインを含めることができます。ただし、単一のパイプラインはHive metastoreとUnity Catalogに書き込むことはできません。 Hive metastoreに書き込む既存のパイプラインは、 Unity Catalogを使用するようにアップグレードできません。 Hive metastoreに書き込む既存のパイプラインを移行するには、新しいパイプラインを作成し、データソースからデータを再取り込む必要があります。 Hive metastoreラインを複製してUnity Catalogパイプラインを作成する」を参照してください。

Unity Catalog を使用していない既存のパイプラインは、Unity Catalog で構成された新しいパイプラインを作成しても影響を受けません。これらのパイプラインは、構成されたストレージの場所を使用してHive metastoreにデータを保持し続けます。

このドキュメントで特に指定されていない限り、既存のすべてのデータソースおよびパイプライン機能は、 Unity Catalog使用するパイプラインでサポートされます。 Unity Catalog を使用するパイプラインでは、 PythonとSQL の両方のインターフェースがサポートされています。

非アクティブなテーブル

パイプラインが Unity Catalog にデータを保存するように構成されている場合、パイプラインはテーブルのライフサイクルと権限を管理します。

パイプラインからテーブルの定義が削除されると、テーブルは非アクティブになる可能性があります。次のパイプライン更新では、対応するマテリアライズドビューまたはストリーミングテーブルエントリが非アクティブとしてマークされます。

パイプラインの一応カタログまたはスキーマを変更し、パイプラインソースコードで完全修飾テーブル名を使用しない場合、次回のパイプライン実行により新しいカタログまたはスキーマにマテリアライズドビューまたはストリーミングテーブルが作成され、古い場所にある以前のマテリアライズドビューまたはストリーミングテーブルは非アクティブとしてマークされます。

非アクティブなテーブルに対してクエリを実行することは引き続き可能ですが、パイプラインはそれらのテーブルを更新しなくなります。マテリアライズドビューまたはストリーミングテーブルをクリーンアップするには、テーブルを明示的にDROPます。パイプラインが削除されると、非アクティブなテーブルは削除されます。

UNDROPコマンドを使用すると、削除されたテーブルを 7 日以内に回復できます。
次回のパイプライン更新時にマテリアライズドビューまたはストリーミングテーブルエントリがUnity Catalogから削除される従来の動作を維持するには、パイプライン構成"pipelines.dropInactiveTables": "true"を設定します。実際のデータは、誤って削除した場合でも復元できるように一定期間保持されます。マテリアライズドビューまたはストリーミングテーブルをパイプライン定義に追加し直すことで、7 日以内にデータを復元できます。

パイプラインを完全に削除すると (パイプラインソースからテーブル定義を削除するのではなく)、そのパイプラインで定義されているすべてのテーブルも削除されます。UI にパイプラインの削除の確認を求めるメッセージが表示されます。

パイプラインから Unity Catalog にテーブルを書き込む

テーブルを Unity Catalog に書き込むには、ワークスペースを介してパイプラインを操作するように構成する必要があります。パイプラインを作成するときは、[ ストレージオプション] の Unity Catalog を選択し、 [カタログ] ドロップダウンメニューでカタログを選択して、 [ターゲットスキーマ] ドロップ ダウンメニューで既存のスキーマを選択するか、新しいスキーマの名前を入力します。 Unity Catalog カタログの詳細については、「Databricks のカタログとは」を参照してください。Unity Catalog のスキーマの詳細については、「Databricks のスキーマとは」を参照してください。

Unity Catalog パイプラインにデータを取り込む

Unity Catalog を使用するように構成されたパイプラインは、以下からデータを読み取ることができます。

Unity Catalog マネージドテーブルと外部テーブル、ビュー、マテリアライズドビュー、ストリーミングテーブルがあります。
Hive metastoreテーブルとビュー。
read_files()関数を使用してUnity Catalog外部位置から読み取るAuto Loader 。
Apache Kafka と Amazon Kinesis。

以下はUnity CatalogおよびHive metastoreテーブルからの読み取りの例です。

Unity Catalogテーブルからのバッチ取り込み

SQL
Python

SQL
CREATE OR REFRESH MATERIALIZED VIEW
  table_name
AS SELECT
  *
FROM
  my_catalog.my_schema.table1;

Python
@dp.materialized_view
def table_name():
  return spark.read.table("my_catalog.my_schema.table")

Unity Catalogテーブルから変更をストリームする

SQL
Python

SQL
CREATE OR REFRESH STREAMING TABLE
  table_name
AS SELECT
  *
FROM
  STREAM(my_catalog.my_schema.table1);

Python
@dp.table
def table_name():
  return spark.readStream.table("my_catalog.my_schema.table")

Hive metastoreからデータを取り込む

Unity Catalogを使用するパイプラインは、 hive_metastoreカタログを使用してHive metastoreテーブルからデータを読み取ることができます。

SQL
Python

SQL
CREATE OR REFRESH MATERIALIZED VIEW
  table_name
AS SELECT
  *
FROM
  hive_metastore.some_schema.table;

Python
@dp.materialized_view
def table3():
  return spark.read.table("hive_metastore.some_schema.table")

Auto Loaderからデータを取り込む

SQL
Python

SQL
CREATE OR REFRESH STREAMING TABLE table_name
AS SELECT *
FROM STREAM read_files(
  "/path/to/uc/external/location",
  format => "json"
)

Python
@dp.table(table_properties={"quality": "bronze"})
def table_name():
  return (
     spark.readStream.format("cloudFiles")
     .option("cloudFiles.format", "json")
     .load(f"{path_to_uc_external_location}")
 )

マテリアライズドビューを共有する

デフォルトでは、パイプラインによって作成されたデータセットをクエリする権限を持つのはパイプラインの所有者のみです。GRANTステートメントを使用して他のユーザーにテーブルをクエリする権限を与え、 REVOKEステートメントを使用してクエリアクセスを取り消すことができます。Unity Catalogの権限の詳細については、 Unity Catalogでの権限の管理」を参照してください。

テーブルに対する選択権限の付与

SQL
GRANT SELECT ON TABLE
  my_catalog.my_schema.table_name
TO
  `user@databricks.com`

テーブルの選択を取り消す

SQL
REVOKE SELECT ON TABLE
  my_catalog.my_schema.table_name
FROM
  `user@databricks.com`

テーブル作成権限またはマテリアライズドビュー作成権限を付与する

SQL
GRANT CREATE { MATERIALIZED VIEW | TABLE } ON SCHEMA
  my_catalog.my_schema
TO
  { principal | user }

パイプラインのリネージを見る

パイプラインで定義されたテーブルのリネージがカタログエクスプローラーに表示されます。 Catalog Explorer リネージ UI には、Unity Catalog 対応パイプラインのマテリアライズドビューまたはストリーミングテーブルの上流テーブルと下流テーブルが表示されます。 Unity Catalogリネージの詳細については、 Unity Catalogを使用したデータリネージの表示」を参照してください。

Unity カタログ対応パイプライン内のマテリアライズドビューまたはストリーミングテーブルの場合、現在のワークスペースからパイプラインにアクセスできる場合、カタログエクスプローラーのリネージ UI はマテリアライズドビューまたはストリーミングテーブルを生成したパイプラインにもリンクします。

ストリーミングテーブルのデータを追加、変更、または削除する

挿入、更新、削除、マージステートメントなどのデータ操作言語(DML) ステートメントを使用して、 Unity Catalogに公開されたストリーミングテーブルを変更できます。ストリーミングテーブルに対する DML クエリのサポートにより、EU 一般データ保護規則 ( GDPR ) に基づくコンプライアンスのテーブル更新などのユースケースが可能になります。

注記

ストリーミングテーブルのテーブルスキーマを変更する DML ステートメントはサポートされていません。DML ステートメントによってテーブルスキーマの進化が発生しないようにしてください。
ストリーミングテーブルを更新する DML ステートメントは、Databricks Runtime 13.3 LTS 以上を使用する共有Unity Catalog クラスターまたはSQL ウェアハウスでのみ実行できます。
ストリーミングには追加専用のデータソースが必要なため、処理で (DML ステートメントなどによる) 変更を伴うソースストリーミングテーブルからのストリーミングが必要な場合は、ソースストリーミングテーブルの読み取り時にSkipChangeCommits フラグを設定します。 skipChangeCommitsが設定されている場合、ソーステーブルのレコードを削除または変更するトランザクションは無視されます。処理にストリーミングテーブルが必要ない場合は、ターゲットテーブルとしてマテリアライズドビュー (追加のみの制限がない) を使用できます。

以下は、ストリーミングテーブル内のレコードを変更する DML ステートメントの例です。

特定の ID を持つレコードを削除します。

SQL
DELETE FROM my_streaming_table WHERE id = 123;

特定の ID を持つレコードを更新します。

SQL
UPDATE my_streaming_table SET name = 'Jane Doe' WHERE id = 123;

行フィルターと列マスクを使用してテーブルを公開する

行フィルターを使用すると、テーブルスキャンで行がフェッチされるたびにフィルターとして適用される関数を指定できます。これらのフィルターにより、後続のクエリでは、フィルター述語が true と評価される行のみが返されるようになります。

列マスクを使用すると、テーブルスキャンで行がフェッチされるたびに列の値をマスクできます。その列に対する今後のクエリでは、列の元の値ではなく、評価された関数の結果が返されます。行フィルターと列マスクの使用の詳細については、「行フィルターと列マスク」を参照してください。

行フィルターと列マスクの管理

マテリアライズドビューとストリーミングテーブルの行フィルターと列マスクは、 CREATE OR REFRESHステートメントを通じて追加、更新、または削除する必要があります。

行フィルターと列マスクを使用したテーブルの定義に関する詳細な構文については、「パイプラインSQL言語リファレンス」および「 Lakeflow Spark宣言型パイプラインPython言語リファレンス」を参照してください。

行動

パイプラインで行フィルターまたは列マスクを使用する場合の重要な詳細は次のとおりです。

所有者として更新 : パイプラインがマテリアライズドビューまたはストリーミングテーブルを更新すると、行フィルターおよび列マスク機能がパイプライン所有者の権限で実行されます。つまり、テーブルの更新では、パイプラインを作成したユーザーのセキュリティコンテキストが使用されることになります。ユーザーコンテキストをチェックする関数 ( CURRENT_USERやIS_MEMBERなど) は、パイプライン所有者のユーザーコンテキストを使用して評価されます。
Query : マテリアライズドビューまたはストリーミングテーブルをクエリする場合、ユーザーコンテキスト ( CURRENT_USERやIS_MEMBERなど) をチェックする関数は、呼び出し元のユーザーコンテキストを使用して評価されます。このアプローチでは、現在のユーザーのコンテキストに基づいて、ユーザー固有のデータセキュリティとアクセス制御が適用されます。
行フィルターと列マスクを含むソーステーブルに対してマテリアライズドビューを作成する場合、マテリアライズドビューの更新は常に完全な更新になります。完全更新では、ソースで使用可能なすべてのデータが最新の定義で再処理されます。このプロセスでは、ソーステーブルのセキュリティポリシーが評価され、最新のデータと定義を使用して適用されているかどうかを確認します。

可観測性

DESCRIBE EXTENDED 、 INFORMATION_SCHEMA 、またはカタログエクスプローラーを使用して、特定のマテリアライズドビューまたはストリーミングテーブルに適用される既存の行フィルターと列マスクを調べます。この機能により、ユーザーはマテリアライズドビューとストリーミングテーブルでのデータアクセスと保護対策を監査およびレビューできます。

要件​

制限事項​

Hive metastoreとUnity Catalogパイプラインを併用できますか?​

非アクティブなテーブル​

パイプラインから Unity Catalog にテーブルを書き込む​

Unity Catalog パイプラインにデータを取り込む​

Unity Catalogテーブルからのバッチ取り込み​

Unity Catalogテーブルから変更をストリームする​

Hive metastoreからデータを取り込む​

Auto Loaderからデータを取り込む​

マテリアライズドビューを共有する​

テーブルに対する選択権限の付与​

テーブルの選択を取り消す​

テーブル作成権限またはマテリアライズドビュー作成権限を付与する​

パイプラインのリネージを見る​

ストリーミング テーブルのデータを追加、変更、または削除する​

特定の ID を持つレコードを削除します。​

特定の ID を持つレコードを更新します。​

行フィルターと列マスクを使用してテーブルを公開する​

行フィルターと列マスクの管理​

行動​

可観測性​

要件