データの分類
ベータ版
この機能は ベータ版です。
データカタログには膨大な量のデータが含まれており、多くの場合、既知および未知の機密データが含まれています。データチームは、各テーブルにどのような種類の機密データが存在するかを理解し、このデータへのアクセスを管理し、民主化することが重要です。
この問題に対処するために、Databricks データ分類はカタログ内のテーブルを自動的に分類してタグ付けします。これにより、Unity Catalog の属性ベースのアクセス制御 (ABAC) ポリシーなどのツールを使用して、機密データを検出し、結果にガバナンス制御を適用できます。
この機能を使用すると、次のことができます。
- データの分類: エンジンは、複合 AI システムを使用して、Unity Catalog 内のテーブルを自動的に分類 (およびタグ付け) します。
- スマート スキャンによるコストの最適化 : システムは、Unity Catalog とデータ インテリジェンス エンジンを利用して、データをスキャンするタイミングをインテリジェントに決定します。つまり、スキャンは増分的で最適化されており、すべての新しいデータが手動設定なしで分類されるようにします。
- 分類のレビュー : このプレビューでは、カタログ全体の分類結果とダウンストリームの影響を表示するのに役立つ AI/BIダッシュボードが提供されます。
フィードバックやご質問は、 data-classification-feedback@databricks.com までお問い合わせください。
Databricksのデータ分類では、Databricks でホストされる大規模言語モデル (LLM) を使用して分類を支援します。Databricks は、データを保護するためのセキュリティ制御を実装しています。詳細については、モデルサービングのデータ保護およびDatabricks AI機能の信頼性と安全性を参照してください。
必要条件
- サーバレス コンピュートを有効にする必要があります。 サーバレス コンピュートへの接続を参照してください。
- データ分類を有効にするには、カタログに対する
MANAGE
、CREATE SCHEMA
、およびSELECT
権限が必要です。 - データ分類は、 標準カタログでのみサポートされます。
データ分類を有効にする
-
任意のカタログに移動し、[ 詳細] タブをクリックします。
-
[ データ分類] トグルをクリックして有効にします。
-
(オプション)分類に含めるスキーマを選択します。デフォルトでは、すべてのスキーマが含まれます。
これにより、カタログまたは選択したスキーマ内のすべてのテーブルを増分スキャンするバックグラウンドジョブが作成されます。
分類結果の表示
分類結果を表示するには、トグルの横にある 結果の表示 をクリックします。ダッシュボードが開き、カタログ内のすべてのテーブルの分類結果が表示されます。
概要
概要 セクションには、分類されたテーブルの数と、カタログ全体の機密データ・クラスが表示されます。スキーマ、テーブル、または分類で結果をフィルタリングできます。
ダッシュボードは、アクセス制御された結果を提供するビューによって強化されているため、ユーザーが読み取りアクセス権を持つテーブル結果の行のみが返されます (詳細については FAQ を参照してください)。
分類ログ
分類ログ セクションには、時間の経過に伴う分類の時系列グラフが表示されます。これにより、 最新の分類結果を確認でき、機密データクラスごとのドリルダウンが可能となります。
また、次のような各分類の詳細を含む表も提供します。
- 根拠:分類が行われた理由。これは、メタデータまたは列名の検出、値の検出、または両方の組み合わせが原因である可能性があります。
- 一致スコア: 分類に一致した行のおおよその割合。
- サンプル値: 分類に一致した値のサンプル。これは、分類のコンテキストを理解し、その正確性を検証するのに役立ちます。
- ダウンストリーム資産: ジョブ、ノートブック、クエリ、ダッシュボードなど、分類の影響を受けるダウンストリーム資産のリスト。
- アクティブ・ユーザー: 指定された時間範囲内のテーブルのアクティブ・ユーザー数。
スキャンの失敗
[ スキャンの失敗] セクションには、分類に失敗したテーブルが表示されます。これは、さまざまな場合に発生する可能性があります 理由があり、各テーブルの失敗には詳細なエラーメッセージが伴います。これらのエラーの解決については、 FAQ を参照してください。
タグ付けとガバナンスの制御
データ分類の結果は、次のような複数の方法でガバナンス制御を有効にすることができます。
- 機密データのディスカバリー: 分類結果を照会して、カタログ内の機密データを検出し、適切なアクションを実行できます。
- 行レベルおよび列レベルのセキュリティ: 分類では、属性ベースのアクセス制御 (ABAC) を使用して行レベルおよび列レベルのセキュリティを適用するためにダウンストリームポリシーで使用できるタグを生成できます。
- テーブルレベルのセキュリティ: 分類結果を使用して、機密性の高いテーブルとスキーマへのアクセスを制限するユーザーグループとアクセス許可を設定できます。
機密データの検出
ダッシュボードの結果ビューは、機密データが存在する場所と、カタログ内でどのように使用されているかを理解するのに役立ちます。この情報を使用して、テーブル所有者に次の要求を自動的に通知するなど、適切なアクションを実行できます。 テーブルから個人を特定できる情報 (PII) を削除または修復します。
行レベルおよび列レベルのセキュリティー
データ分類では、システムタグを使用して機密データに自動的にタグを付けることができます。そのためには、次の手順を実行します。
- システム管理タグ (
class.
プレフィックスで始まるタグ) に対するASSIGN
権限が必要です。 - タグが適用されるカタログ、スキーマ、およびテーブルに対する
APPLY TAG
権限が必要です。
ABAC ベータ版を有効にしている場合は、ABAC ポリシーで class.
タグとマスキング機能を使用して、タグ付けされたデータを自動的にマスクできます。
たとえば、特定のユーザーに属していないすべてのユーザーに対して社会保障番号をマスクするポリシーを作成できます グループ。
ABAC ベータ版を有効にするには、「ABAC を有効にする」を参照してください。
列レベルのセキュリティーを適用するための別のオプションは、タグ付き列に 列マスク を適用することです。
テーブル・レベル・セキュリティー
分類結果を使用して、ユーザー グループとアクセス許可を使用してテーブル レベルのセキュリティを実装できます。たとえば、 confidential
というユーザーグループを作成し、 name
を含むすべてのテーブルに割り当てることができます。
分類を作成し、 restricted
というグループを作成し、 を含むすべてのテーブルに割り当てることができます us_ssn
。
誤検知の処理方法
データに誤ってタグが付けられている場合は、タグを手動で削除できます。タグは、今後のスキャンで再適用されません。
データ分類の経費を表示する
データ分類の請求方法を理解するには、 価格ページにアクセスしてください。データ分類に関連する経費は、クエリを実行するか、使用状況ダッシュボードを表示することで表示できます。
システムテーブルから使用状況を表示する system.billing.usage
データ分類の費用を確認するには、次のようなクエリを使用します。
SELECT
usage_date,
identity_metadata.run_as AS run_as_user,
SUM(usage_quantity) AS dbus
FROM
system.billing.usage
WHERE
usage_date >= DATE_SUB(CURRENT_DATE(), 30)
AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
usage_date,
identity_metadata.run_as
ORDER BY
usage_date DESC,
run_as_user;
使用状況ダッシュボードから使用状況を表示する
ワークスペースに使用状況ダッシュボードが既に構成されている場合は、それを使用して [データ分類] というラベルの付いた請求元プロジェクトを選択して使用状況をフィルター処理できます。使用状況ダッシュボードが構成されていない場合は、ダッシュボードをインポートして同じフィルタリングを適用できます。詳細については、「 使用状況ダッシュボード」を参照してください。
よくある質問
データ分類の実行にはどのくらい時間がかかりますか?
分類エンジンは、スマート スキャンに依存して、テーブルをスキャンするタイミングを決定します。期待できます カタログ内の新しいテーブルと列は、作成後 24 時間以内にスキャンされます。
24 時間以上遅延が発生する場合は、 data-classification-feedback@databricks.com までご連絡ください。
作成された結果テーブルに対する権限は何ですか?
データ分類では、結果とエラー (それぞれ_result
と _errors
) を格納するテーブルが作成されます。
は、分類を設定したユーザーのみがアクセスできます。
動的ビューもこれらのテーブルに対して作成され、行レベルのアクセス制御が適用されるため、結果を読み取るすべてのユーザーが これらのビューには、すでに所有権または読み取りアクセス権を持っているテーブルに対応するエントリのみが表示されます。
一部のテーブルは分類できませんでした。何が問題だったのかをどうやって把握すればよいですか?
デフォルトでは、個々のテーブルで発生したエラーはスキップされ、翌日に再試行されます。エラー ビューを使用して、分類の失敗の原因となった正確なエラー メッセージを表示できます。
SELECT * FROM <catalog_name>._data_classification.errors
WHERE schema_name = '<schema_name>' and table_name = '<table_name>'
データ分類はビューをサポートしていますか?
ビューと メトリクス ビュー はサポートされていません。 ビューが既存のテーブルに基づいている場合、Databricks では 基になるテーブルを分類して、機密データが含まれているかどうかを確認します。
マテリアライズドビューとストリーミングテーブルに対応しています。
データ分類は Delta Sharing カタログをサポートしていますか?
Delta Sharing を使用して共有されるカタログはサポートされていません。代わりに、Databricks では、スキーマとテーブルを 既存のカタログを使用して機密データを分類します。
サポートされているクラス
次の表に、データ分類でサポートされているクラスを示します。
クラス | 説明 |
---|---|
「credit_card」 | クレジットカード番号 |
「email_address」 | メールアドレス |
「iban_code」 | International Bank アカウント番号 (IBAN) |
「ip_address」 | インターネット プロトコル アドレス(IPv4 または IPv6) |
「場所」 | 場所 |
「名前」 | 人の名前 |
「phone_number」 | 電話番号 |
「us_bank_number」 | 米国の銀行番号 |
「us_driver_license」 | 米国の運転免許証 |
「us_itin」 | 米国の個人納税者識別番号 |
「us_passport」 | 米国パスポート |
「us_ssn」 | 米国の社会保障番号 |