Unity Catalog によるデータガバナンス
このガイドでは、Databricks でデータと AI オブジェクトのアクセスを管理する方法について説明します。 Databricks セキュリティに関する情報については、「セキュリティとコンプライアンス」を参照してください。Databricks は、Unity Catalog と Delta Sharing を使用して、データと AI の一元化されたガバナンスを提供します。
Unity Catalog を使用したアクセス制御の一元化
Unity Catalog は、Databricks プラットフォーム上のデータと AI のためのきめ細かなガバナンスソリューションです。 データと AI 資産へのアクセスを一元的に管理および監査する場所を提供することで、データと AI 資産のセキュリティとガバナンスを簡素化するのに役立ちます。
ほとんどのアカウントでは、ワークスペースを作成するときに Unity Catalog が Default によって有効になります。 詳細については、「 Unity Catalog の自動有効化」を参照してください。
Unity Catalog を効果的に使用する方法については、「 Unity Catalog のベスト プラクティス」を参照してください。
Unity Catalogを使用してデータリネージを追跡
Unity Catalog を使用すると、Databricks クラスターや SQLウェアハウスで実行される任意の言語のクエリ間でランタイム データリネージをキャプチャできます。リネージは列レベルまでキャプチャされ、クエリに関連するノートブック、ジョブ、ダッシュボードが含まれます。 詳細については、「 Unity Catalogを使用したデータリネージのキャプチャと表示」を参照してください。
カタログエクスプローラーを使用してデータを検出します
DatabricksのCatalog Explorer AIは、スキーマ (データベース)、テーブル、ボリューム (非表形式データ)、登録済みのML モデルなどのデータと アセット、およびアセットの権限、データ所有者、外部ロケーション、および資格情報を探索および管理するための UI を提供します。Catalog Explorer の 洞察 タブを使用して、 Unity Catalogに登録されている任意のテーブルで最も頻繁に使用される最近のクエリとユーザーを表示できます。
Delta Sharing を使用したデータの共有
Delta Sharing は、Databricks が開発したオープンプロトコルで、他の組織や組織内の他のチームと、使用するコンピューティングプラットフォームに関係なく、データや AI アセットを安全に共有します。
監査ログを設定する
Databricks では、Databricks ユーザーが実行したアクティビティの 監査ログ にアクセスできるため、企業は詳細な Databricks の使用パターンを監視できます。
Unity Catalog では、監査ログ、課金利用、システム テーブル (Public Preview) を使用して、アカウントの運用データに簡単にアクセスし、クエリを実行できます。
ID を構成する
優れたデータガバナンスのストーリーは、すべて強力なアイデンティティ基盤から始まります。 Databricks で ID を最適に構成する方法については、「 ID のベスト プラクティス」を参照してください。
従来のデータガバナンスソリューション
Databricks は、次のレガシ ガバナンス モデルも提供します。
-
テーブルアクセスコントロール は、ワークスペースの組み込み Hive metastoreによって管理されるオブジェクトへのアクセスをプログラムで許可および取り消すことができる従来のデータガバナンスモデルです。 Databricks では、テーブルアクセスコントロールの代わりに Unity Catalog を使用することをお勧めします。 Unity Catalog は、アカウント内の複数のワークスペースにわたるデータアクセスを一元的に管理および監査するための場所を提供することで、データのセキュリティとガバナンスを簡素化します。
-
IAMロール資格情報パススルー は、ユーザーがS3 Databricksへのログインに使用する ID を使用して、 Databricksクラスターから バケットに対して自動的に認証できるようにする従来のデータガバナンス機能でもあります。Databricks では、代わりに Unity Catalog を使用することをお勧めします。