メインコンテンツまでスキップ

Databricks によるデータガバナンス

このページでは、Databricks で Unity Catalog を使用してデータを管理する方法の概要について説明します。

注記

このページでは、データのガバナンスに焦点を当てています。次のような関連するセキュリティのトピックについては、「 セキュリティとコンプライアンス」で説明しています。

  • 認証とアクセス制御
  • ネットワーク構成
  • データのセキュリティと暗号化
  • プライバシーとコンプライアンス

Unity Catalog とは何ですか?

Unity Catalog は、機械学習モデルなどの AI アセットのガバナンスとともに、複数のプラットフォーム上の複数の形式の表形式データと非構造化データに対するきめ細かなアクセス制御を提供する一元化されたデータカタログです。また、データの検出、使用状況の追跡、リネージのキャプチャ、データ品質の監視に必要なツールも含まれています。

Unity Catalog は オープンソース であり、複数のプラットフォームをサポートしています。これは Databricks に深く統合されています。

Unity Catalog とはを参照してください。

Unity Catalogデータガバナンスモデル

データガバナンス with Unity Catalog は、次の機能を提供します。

  • データの統合:プラットフォーム間ですべてのデータとAI資産を一元的に表示し、重複とスプロール化を削減します。
  • データアクセス制御:データに簡単にアクセスできるようにするためのツールで、適切なユーザーのみがアクセスできます。
  • データの検出可能性: 必要なデータを簡単に見つけることができるツール。
  • データ品質:データの正確性、完全性、一貫性、ライフサイクル全体にわたる安全性を確保するためのツール。
  • データのコラボレーションと共有:組織内だけでなく、組織やプラットフォームの境界を越えてデータを安全に共有する能力。
  • 監査: 誰がどのようにデータを使用するかを把握するツール。

このページでは、組織が Databricks の Unity Catalog を使用してこれらのニーズを満たす方法について説明します。

データアクセス制御

ユーザーが必要なデータにのみアクセスできるように、 Unity Catalog には、ユーザー、グループ、サービスプリンシパルに、アカウント レベルからテーブルの行と列までのデータと AI 資産へのアクセス権を付与できる階層型特権モデルが用意されています。 専用の Unity Catalog ストレージに保存されているアセットや、クラウドストレージやデータベースシステムなどの他のプラットフォームに保存されているアセットへのアクセスを制御することができます: 重要なのは、Unity Catalog が Databricks 内のどこにあるかに関係なく、ユーザーにすべてのデータへの潜在的なアクセスを提供し、Unity Catalog がユーザーのアクセスを制御し、データ使用量を追跡することです。

タスク

説明

権限の管理

Unity Catalog が管理するセキュリティ保護可能なオブジェクトと、それらへのアクセスを制御する方法について説明します。

ID を管理する

Unity Catalog のコンテキストで ID を管理する方法について説明します。

きめ細かなアクセス制御

行フィルタと列マスクを使用してテーブルデータへのアクセスを制御する方法について説明します。

外部ストレージとデータ プラットフォームへのアクセスを管理する

Unity Catalog を使用して、クラウドストレージ、外部データプラットフォーム、外部の非データサービスへのアクセスを制御する方法を学びます。

外部プラットフォームからのアクセスを管理する

Unity Catalog が Apache Iceberg または オープンソース の Unity Catalog APIsを使用する外部プラットフォームからデータへのアクセスを管理する方法について説明します。

データの発見可能性

Databricks と Unity Catalog には、ユーザーが必要なデータを見つけるのに役立つ次のツールが用意されています。

機能

説明

カタログエクスプローラー

アセット名とメタデータ (コメントやタグなど) を使用して、データと AI アセットを参照および検索します。

カタログブラウザ

データと AI アセットは、ノートブックと SQL クエリ エディターに組み込まれているブラウザーを使用して検索します。「Databricks ノートブックとファイル エディターの操作」および「SQL エディターでのクエリの記述とデータの探索」を参照してください。

AIが生成したコメント

データとAI資産のドキュメントを自動的に生成して、発見可能性を支援します。

テーブルインサイト

Catalog Explorer に組み込まれた UI を使用して、Unity Catalog の任意のテーブルで最も頻繁に使用されるユーザーとクエリを表示します。

データリネージ

組織が流れるデータの流れをキャプチャして視覚化します。

機能とモデルのリネージについては、 機能のガバナンスとリネージを参照してください。

エンティティ関係図 (ERD)

外部キーが定義されているテーブルのリレーションシップを表示します。

「データの検出」も参照してください。

Data quality モニタリング

データ品質とデータの完全性を確保するためのツールは、 Delta Lake、 Apache Spark、および Databricksに深く統合されています。 それらについては、 Databricksドキュメント全体で学ぶことができます。

Unity Catalog には、次のものが追加されます。

機能

説明

レイクハウスモニタリング

アカウント内のすべてのテーブルのデータの統計的プロパティと品質をキャプチャするデータモニタリングツール。 また、これを使用して、モデル入力と予測を含む推論テーブルを監視することにより、機械学習モデルとモデルサービングエンドポイントのパフォーマンスを追跡することもできます。

認定済みおよび非推奨のシステムタグ

カタログ、スキーマ、テーブルなどのセキュリティ保護可能なオブジェクトに、データ品質またはライフサイクル ステータスのインジケーターをラベル付けします。これらのシステムタグは、組織がガバナンスを強化し、データの検出可能性を向上させ、アナリティクスおよび AI アプリケーションの信頼性を高めるのに役立ちます。

データのコラボレーションと共有

Unity Catalog を使用すると、ユーザーは同じリージョン内のアカウントのすべてのワークスペースで同じデータで共同作業を行うことができます。ワークスペースのリージョン間、組織間、プラットフォーム間でのコラボレーションが必要な場合、Unity Catalog は次の共有ツールの基盤を提供します。

機能

説明

Delta Sharing

Databricks のデータと AI アセットを、Databricks を使用しているかどうかに関係なく、組織外のユーザーと共有できる安全なデータ共有プラットフォームです。

クリーンルーム

Databricks プラットフォームと Databricks 以外のプラットフォーム上の複数の参加者が、基になるデータを相互に共有することなくプロジェクトで共同作業できる、Databricks で管理される環境。

Databricks Marketplace

データ交換や製品の AI のためのオープンフォーラムです。 また、プライベートなデータ交換も提供します。

聴講

監査ログ には、特定のデータセットにアクセスしたユーザーと、そのユーザーが実行したアクションに関する詳細な情報がキャプチャされます。Unity Catalog 、アカウントの監査ログにアクセスしてクエリを実行する最も簡単な方法である システムテーブル を追加します。

監査ログのリファレンスおよびシステムテーブルを使用したアカウントアクティビティのモニタリングを参照してください。

レガシー Databricks データガバナンス ツール

Databricks は、これらの従来のガバナンス機能も提供します。Databricks では、代わりに Unity Catalog を使用することをお勧めします。

機能

説明

テーブルのアクセス制御

ワークスペースの組み込みによって管理されるオブジェクトへのアクセスをプログラムで許可および取り消すことができる従来のデータガバナンス モデル Hive metastore.

IAMロール資格情報のパススルー

S3ユーザーがDatabricks へのログインに使用する ID を使用して、 クラスタリングから バケットに対して自動的に認証できるようにする従来のデータガバナンス機能。Databricks

次のステップ