Unity Catalog によるデータガバナンス

このガイドでは、Databricks でデータと AI オブジェクトへのアクセスを管理する方法を説明します。 Databricks のセキュリティに関する情報については、「セキュリティとコンプライアンス ガイド」を参照してください。 Databricks は、Unity Catalog と Delta Sharing を使用してデータと AI の一元的なガバナンスを提供します。

Unity Catalog を使用したアクセス制御の一元化

Unity Catalog は、Databricks プラットフォーム上のデータと AI のためのきめ細かなガバナンス ソリューションです。 データと AI 資産へのアクセスを一元的に管理および監査する場所を提供することで、データと AI 資産のセキュリティとガバナンスを簡素化します。

ほとんどのアカウントでは、ワークスペースの作成時にUnity Catalogがデフォルトで有効になります。 詳細については、 Unity Catalogの自動有効化」を参照してください。

Unity Catalog を効果的に使用する方法については、 「Unity Catalog のベスト プラクティス」を参照してください。

Unity Catalog を使用してデータリネージを追跡する

Unity Catalog使用すると、 DatabricksクラスターまたはSQLウェアハウスで実行される任意の言語のクエリ全体でランタイム データ リネージをキャプチャできます。 リネージは列レベルまでキャプチャされ、クエリに関連するノートブック、ジョブ、ダッシュボードが含まれます。 詳細については、 Unity Catalogを使用したデータリネージのキャプチャと表示」を参照してください。

カタログ エクスプローラを使用したデータの検出

Databricks Catalog Explorer には、スキーマ (データベース)、テーブル、ボリューム (表形式以外のデータ)、登録済みの機械学習モデルなど、データと AI 資産を、資産のアクセス許可、データ所有者、外部ロケーション、資格情報と共に探索および管理するための UI が用意されています。 カタログ エクスプローラーの [知見 ] タブを使用して、Unity Catalog に登録されている任意のテーブルの最も頻繁な最近のクエリとユーザーを表示できます。

Delta Sharingを使用したデータの共有

Delta Sharing は、Databricks が開発したオープン プロトコルであり、使用するコンピューティング プラットフォームに関係なく、他の組織や組織内の他のチームとデータや AI 資産を安全に共有できます。

監査ログを構成する

Databricks は、Databricks ユーザーが実行したアクティビティの監査ログへのアクセスを提供し、企業が詳細な Databricks の使用パターンを監視できるようにします。

Unity Catalog使用すると、システムテーブル (パブリックプレビュー) を使用して、監査ログ、課金利用、リネージなどのアカウントの運用データに簡単にアクセスしてクエリを実行できます。

IDを構成する

すべての優れたデータガバナンスのストーリーは、強力なアイデンティティの基盤から始まります。 Databricks で ID を最適に構成する方法については、 「ID のベスト プラクティス」を参照してください。

レガシーデータガバナンスソリューション

Databricks は、次のレガシー ガバナンス モデルも提供します。

  • テーブルアクセスコントロール は、ワークスペースの組み込み Hive metastoreによって管理されるオブジェクトへのアクセスをプログラムで許可および取り消すことができる従来のデータガバナンスモデルです。 Databricks では、テーブルアクセスコントロールの代わりに Unity Catalog を使用することをお勧めします。 Unity Catalog は、アカウント内の複数のワークスペースにわたるデータ アクセスを管理および監査するための一元的な場所を提供することで、データのセキュリティとガバナンスを簡素化します。

  • IAMロール 認証情報パススルー は、ユーザーが Databricks へのログインに使用する ID を使用して、Databricks クラスターから S3 バケットに対して自動的に認証できるようにするレガシー データ ガバナンス機能でもあります。 Databricks では、代わりに Unity Catalog を使用することをお勧めします。