専用のコンピュートによるきめ細かなアクセス制御

きめ細かなアクセス制御により、ビュー、行フィルター、および列マスクを使用して、特定のデータへのアクセスを制限できます。このページでは、サーバレスコンピュートを使用して、専用のコンピュートリソースに対してきめ細かなアクセス制御を適用する方法について説明します。

注記

専用コンピュートは、専用アクセスモード(旧シングルユーザーアクセスモード)で構成された汎用またはジョブコンピュートです。アクセスモードを参照してください。

必要条件

専用のコンピュートを使用して、きめ細かなアクセス制御でビューまたはテーブルをクエリするには:

専用のコンピュートリソースは、 Databricks Runtime 15.4 LTS 以降に存在する必要があります。
ワークスペースでは、ジョブ、ノートブック、および Lakeflow宣言型パイプラインのサーバレスコンピュートを有効化する必要があります。

専用のコンピュートリソースとワークスペースがこれらの要件を満たしている場合、データフィルタリングは自動的に実行されます。

専用のコンピュートでのデータフィルタリングの仕組み

クエリがきめ細かなアクセス制御を使用してデータベースオブジェクトにアクセスするたびに、専用のコンピュートリソースがクエリをワークスペースのサーバレスコンピュートに渡して、データフィルタリングを実行します。フィルタリングされたデータは、ワークスペース内部クラウドストレージ上の一時ファイルを使用して、サーバレスと専用コンピュート間で転送されます。

この機能は、次のデータベースオブジェクトに適用されます。

ダイナミックビュー
行フィルターまたは列マスクを持つテーブル
ユーザーがSELECT権限を持っていないテーブルに対して構築されたビュー
マテリアライズドビュー
ストリーミングテーブル

次の図では、ユーザーは table_1、 view_2、および table_w_rlsに対する SELECT 権限を持ち、行フィルターが適用されています。ユーザーには、 view_2によって参照される table_2に対する SELECT 権限がありません。

データフィルタリングのしくみを示す図

table_1 に対するクエリは、フィルター処理が不要なため、専用のコンピュートリソースによって完全に処理されます。view_2 と table_w_rls のクエリでは、ユーザーがアクセスできるデータを返すためにデータフィルタリングが必要です。これらのクエリは、サーバレスコンピュートのデータフィルタリング機能によって処理されます。

書き込み操作のサポート

備考

プレビュー

この機能はパブリックプレビュー段階です。

Databricks Runtime 16.3 以降では、次のオプションを使用して、行フィルターまたは列マスクが適用されているテーブルに書き込むことができます。

MERGE INTO SQL コマンド (これを使用して、INSERT、UPDATE、および DELETE の機能を実現できます。
Deltaマージ操作。
DataFrame.write.mode("append") API。

INSERT、UPDATE、および DELETE の機能を実現するには、ステージングテーブルと MERGE INTO ステートメントの WHEN MATCHED 句と WHEN NOT MATCHED 句を使用できます。

次に、MERGE INTOを使用したUPDATEの例を示します。

SQL
MERGE INTO target_table AS t
USING source_table AS s
ON t.id = s.id
WHEN MATCHED THEN
  UPDATE SET
    t.column1 = s.column1,
    t.column2 = s.column2;

次に、MERGE INTO を使用した INSERT の例を示します。

SQL
MERGE INTO target_table AS t
USING source_table AS s
ON t.id = s.id
WHEN NOT MATCHED THEN
INSERT (id, column1, column2) VALUES (s.id, s.column1, s.column2);

次に、MERGE INTO を使用した DELETE の例を示します。

SQL
MERGE INTO target_table AS t
USING source_table AS s ON t.id = s.id
WHEN MATCHED AND s.some_column = TRUE THEN DELETE;

サーバレスコンピュートのコスト

お客様は、データフィルタリング操作を実行するサーバレスコンピュートリソースに対して課金されます。価格情報については、プラットフォーム階層とアドオンを参照してください。

アクセス権を持つユーザーは、 system.billing.usage テーブルをクエリして、請求された金額を確認できます。たとえば、次のクエリは、コンピュートのコストをユーザー別に分類します。

SQL
SELECT usage_date,
sku_name,
 identity_metadata.run_as,
SUM(usage_quantity) AS `DBUs consumed by FGAC`
FROM system.billing.usage
WHERE usage_date BETWEEN '2024-08-01' AND '2024-09-01'
 AND billing_origin_product = 'FINE_GRAINED_ACCESS_CONTROL'
GROUP BY 1, 2, 3 ORDER BY 1;

データフィルタリングが行われているときのクエリパフォーマンスの表示

専用のコンピュートの Spark UI には、クエリのパフォーマンスを理解するために使用できるメトリクスが表示されます。コンピュートリソースに対して実行するクエリごとに、 SQL/データフレーム タブにクエリグラフ表現が表示されます。クエリがデータフィルタリングに関与していた場合、UI ではグラフの下部に RemoteSparkConnectScan 演算子ノードが表示されます。このノードには、クエリのパフォーマンスを調査するために使用できるメトリクスが表示されます。 Apache Spark UI でコンピュート情報を表示するを参照してください。

RemoteSparkConnectScan ノードを示す SparkUI

RemoteSparkConnectScan 演算子ノードを展開して、次のような質問に対処するメトリクスを表示します。

データのフィルタリングにはどのくらいの時間がかかりましたか? 「total remote execution time」を参照します。
データフィルタリング後にはいくつの行が残っていましたか? 「rows output」を参照します。
データフィルタリング後に返されたデータの量 (バイト単位) はどれくらいですか? 「rows output size」を表示します。
パーティションプルーニングされ、ストレージから読み取る必要がなかったデータファイルはいくつありますか? 「Files pruned」と「Size of files pruned」を表示します。
プルーニングできず、ストレージから読み取らなければならなかったデータ・ファイルはいくつありますか。「Files read」と「Size of files read」を表示します。
読み取る必要があったファイルのうち、キャッシュにすでにいくつありましたか? 「Cache hits size」および「Cache misses size」を表示します。

制限

ストリーミングテーブルでは、バッチ読み取りのみがサポートされます。行フィルターまたは列マスクを持つテーブルは、専用のコンピュートでのストリーミングワークロードをサポートしていません。
デフォルトのカタログ(spark.sql.catalog.spark_catalog)は変更できません。
Databricks Runtime 16.2 以前では、行フィルターまたは列マスクが適用されているテーブルに対するテーブルの書き込みまたは更新操作はサポートされていません。

具体的には、 INSERT、 DELETE、 UPDATE、 REFRESH TABLE、 MERGEなどの DML 操作はサポートされていません。これらのテーブルからのみ (SELECT) を読み取ることができます。
Databricks Runtime 16.3 以降では、 INSERT、 DELETE、 UPDATE などのテーブル書き込み操作はサポートされていませんが、サポートされている MERGEを使用して実行できます。
Databricks Runtime 16.2 以前では、データフィルタリングが呼び出されると、これらのクエリが同じリモートテーブルの異なるスナップショットを返す可能性があるため、自己結合はデフォルトによってブロックされます。ただし、これらのコマンドを実行しているコンピュートで spark.databricks.remoteFiltering.blockSelfJoins を false に設定することで、これらのクエリを有効にすることができます。

Databricks Runtime 16.3 以降では、スナップショットは dedicated リソースとサーバレスコンピュートリソース間で自動的に同期されます。この同期により、データ・フィルタリング機能を使用する自己ジョイン・クエリは同一のスナップショットを返し、デフォルトで有効になります。例外は、マテリアライズドビューと任意のビュー、マテリアライズドビュー、および Delta Sharingを使用して共有されるストリーミングテーブルです。これらのオブジェクトの場合、自己結合はデフォルトによってブロックされますが、これらのコマンドを実行しているコンピュートで spark.databricks.remoteFiltering.blockSelfJoins を false に設定することで、これらのクエリを有効にできます。

マテリアライズドビューと任意のビュー、マテリアライズドビュー、およびストリーミングテーブルに対して自己結合クエリを有効にする場合は、結合されるオブジェクトへの並列書き込みがないことを確認する必要があります。
Dockerイメージはサポートされていません。
Databricks Container Services の使用には対応していません。
ワークスペースが 2024 年 11 月より前にファイアウォールを使用してデプロイされた場合は、ポート 8443 と 8444 を開いて、専用のコンピュートできめ細かなアクセス制御を有効にする必要があります。セキュリティグループを参照してください。

必要条件​

専用のコンピュートでのデータフィルタリングの仕組み​

書き込み操作のサポート​

サーバレス コンピュートのコスト​

データフィルタリングが行われているときのクエリパフォーマンスの表示​

制限​

必要条件

専用のコンピュートでのデータフィルタリングの仕組み

書き込み操作のサポート

サーバレスコンピュートのコスト

データフィルタリングが行われているときのクエリパフォーマンスの表示

制限