データの分類
ベータ版
この機能は ベータ版です。
イントロダクション
データカタログには膨大な量のデータが含まれる場合があり、多くの場合、既知および未知の機密データが含まれています。データ チームは、各テーブルにどのような機密データが存在するかを理解し、このデータへのアクセスを管理し、民主化することが重要です。
この問題に対処するために、Databricksのデータ分類はカタログ内のテーブルを自動的に分類してタグ付けします。これにより、機密データを検出したり、Unity Catalogにおけるロールベースのアクセス制御 (RBAC)や属性ベースのアクセス制御(ABAC) ポリシーを用いて、結果に対してガバナンス制御を適用することができます。
この機能を使用すると、次のことが可能になります。
- データの分類 :エンジンは複合 AI システムを使用して、Unity Catalog 内の任意のテーブルを自動的に分類(およびタグ付け)します。
- スマートスキャンによるコストの最適化 :システムは、Unity Catalog と Data Intelligence Engine を活用して、データをスキャンするタイミングをインテリジェントに決定します。つまり、スキャンは増分され、最適化され、すべての新しいデータが手動設定なしで分類されるようにします。
- 分類のレビュー : このプレビューでは、カタログ全体の分類結果とダウンストリームの影響を表示するのに役立つ AI/BIダッシュボードが提供されます。
フィードバックやご質問は、 data-classification-feedback@databricks.com までお問い合わせください。
免責事項
- Databricksのデータ分類では、Databricks でホストされる大規模言語モデル (LLM) を使用して分類を支援します。Databricks は、データを保護するためのセキュリティ制御を実装しています。詳細については、モデルサービングのデータ保護およびDatabricks AI機能の信頼性と安全性を参照してください。
- Databricksのデータ分類は、最大 1,000 個のテーブルを含むカタログに対して、期間限定で無料で利用できます。この期間を過ぎると、分類エンジンの実行に使用したコンピュートの料金が発生します。
使い始める
- データ分類を有効にするには、カタログに対する
MANAGE
、CREATE SCHEMA
、およびSELECT
権限が必要です。 - サーバレス コンピュートを有効にする必要があります。 手順については、 サーバレス コンピュートへの接続を参照してください。
ステップ 1: データ分類を有効にする
この機能を有効にするには:
-
任意のカタログに移動し、[ 詳細 ]タブをクリックします。
-
「 データ分類 」トグルをクリックして有効にします。
-
(オプション)分類に含めるスキーマを選択します。デフォルトでは、すべてのスキーマが含まれています。
これにより、カタログまたは選択したスキーマ内のすべてのテーブルを段階的にスキャンするバックグラウンドジョブが作成されます。
ステップ 2: 分類結果を表示する
分類結果を表示するには、トグルの横にある 結果の表示 をクリックします。ダッシュボードが開き、カタログ内のすべてのテーブルの分類結果が表示されます。
概要
概要 セクションには、分類されたテーブルの数と、カタログ全体の機密データ・クラスが表示されます。スキーマ、テーブル、または分類で結果をフィルタリングできます。
ダッシュボードは、アクセス制御された結果を提供するビューによって強化されているため、ユーザーが読み取りアクセス権を持つテーブル結果の行のみが返されます (詳細については FAQ を参照してください)。
分類ログ
分類ログ セクションには、時間の経過に伴う分類の時系列グラフが表示されます。これにより、 最新の分類結果を確認でき、機密データクラスごとのドリルダウンが可能となります。
また、次のような各分類の詳細を示す表も提供します。
- 理論的根拠:分類が行われた理由。これは、メタデータまたは列名での検出、値での検出、またはその両方の組み合わせが原因である可能性があります。
- 一致スコア: 分類に一致した行のおおよその割合。
- サンプル値: 分類に一致した値のサンプル。これは、分類のコンテキストを理解し、その精度を検証するのに役立ちます。
- ダウンストリーム資産: 分類の影響を受けるダウンストリーム資産の一覧 (ジョブ、ノートブック、クエリ、ダッシュボードなど)。
- アクティブユーザー: 指定された時間範囲内のテーブルのアクティブユーザーの数。
スキャンの失敗
[スキャン失敗] セクションには、分類に失敗したテーブルが表示されます。これは、さまざまな場合に発生する可能性があります 理由があり、各テーブルの障害には詳細なエラー メッセージが伴います。これらのエラーの解決方法については、 FAQ を参照してください。
タグ付けとガバナンスの制御
データ分類の結果は、次のような複数の方法でガバナンス制御を有効にすることができます。
- 機密データのディスカバリー: 分類結果を照会して、カタログ内の機密データを検出し、適切なアクションを実行できます。
- 行レベルおよび列レベルのセキュリティ: 分類では、属性ベースのアクセス制御 (ABAC) を使用して行レベルおよび列レベルのセキュリティを適用するためにダウンストリーム ポリシーで使用できるタグを生成できます。
- テーブル・レベルのセキュリティ: 分類結果を使用して、ユーザー・グループとパーミッションを設定し、機密性の高いテーブルとスキーマへのアクセスを制限できます。
機密データの検出
ダッシュボードの結果ビューは、機密データがどこに存在し、カタログ内でどのように使用されているかを理解するのに役立ちます。この情報を使用して、テーブル所有者に次のリクエストを自動的に通知するなど、適切なアクションを実行できます。 テーブルから個人を特定できる情報(PII)を削除または修復します。
行レベルと列レベルのセキュリティ
データ分類では、システム・タグを使用して機密データに自動的にタグを付けることができます。これを行うには、次の手順を実行します。
- タグ ポリシーのプレビューに登録する必要があります
- システムタグポリシー(
class.
プレフィックスで始まるすべてのタグ)に対するASSIGN
権限が必要です。 - タグが適用されるカタログ、スキーマ、およびテーブルに対する
APPLY TAG
権限が必要です。
さらに、これらのタグをダウンストリームの ABAC ポリシーで使用して、行レベルと列レベルのセキュリティを適用できます。たとえば、特定のユーザーに属していないすべてのユーザーに対して社会保障番号をマスクするポリシーを作成できます グループ。ABAC ポリシーを作成するには、ABAC プレビューにも登録する必要があります。
タグポリシーまたは ABAC プレビューへの登録の詳細については、アカウント担当者または Databricks サポートにお問い合わせください。
テーブルレベルのセキュリティ
分類結果を使用して、ユーザー・グループとパーミッションを使用してテーブル・レベルのセキュリティを実装できます。たとえば、 confidential
というユーザーグループを作成し、 name
を含むすべてのテーブルに割り当てることができます
分類、および「 restricted
」というグループを作成し、 us_ssn
を含むすべてのテーブルに割り当てることができます。
よくある質問
データ分類の実行にはどのくらいの時間がかかりますか?
分類エンジンは、あらゆるサイズのテーブルを数分でスキャンするように構築されています。ただし、いつテーブルをスキャンするのかを決定するにはスマートスキャンに依存します。あなたのカタログの新規テーブルやカラムが作成後24時間以内にスキャンされることを期待できます。
24時間以上の遅延が発生している場合は、 data-classification-feedback@databricks.com までご連絡ください。
作成された結果テーブルに対するパーミッションは何ですか?
データ分類は、結果とエラー(それぞれ_result
と _errors
)を格納するテーブルを作成します。
は、分類を設定したユーザーのみがアクセスできます。
動的ビューは、行レベルのアクセス制御が適用されたこれらのテーブルに対しても作成されるため、結果を読み取るすべてのユーザー これらのビューからは、既に所有権または読み取りアクセス権を持っているテーブルに対応するエントリのみが表示されます。
一部のテーブルは分類に失敗しました。何が問題だったのかをどうやって把握すればいいですか?
デフォルトでは、個々のテーブルで発生したエラーはスキップされ、翌日に再試行されます。エラー ビューを使用すると、分類の失敗の原因となった正確なエラー メッセージを確認できます。
SELECT * FROM <catalog_name>._data_classification.errors
WHERE schema_name = '<schema_name>' and table_name = '<table_name>'
データ分類はビューをサポートしていますか?
ビューはサポートされていません。ビューが既存のテーブルに基づいている場合、Databricks では 基になるテーブルを分類して、機密データが含まれているかどうかを確認します。
マテリアライズドビューとストリーミングテーブルがサポートされています。
データ分類は Delta Sharing カタログをサポートしていますか?
Delta Sharing を使用して共有されたカタログはサポートされていません。代わりに、Databricks では、スキーマとテーブルを 機密データを分類するための既存のカタログ。
追加情報
サポートされているクラス
"credit_card" // Credit card number
"email_address" // Email address
"iban_code" // International Bank Account Number (IBAN)
"ip_address" // Internet Protocol Address (IPv4 or IPv6)
"location" // Location
"name" // Name of a person
"phone_number" // Phone number
"us_bank_number" // US bank number
"us_driver_license" // US driver license
"us_itin" // US Individual Taxpayer Identification Number
"us_passport" // US Passport
"us_ssn" // US Social Security Number