メインコンテンツまでスキップ

Databricks によるデータガバナンス

データガバナンス は、組織のデータが安全で信頼でき、ライフサイクル全体にわたって責任を持って使用されることを保証する、ポリシー、プロセス、役割、および技術的制御のフレームワークです。 効果的なデータガバナンスを使用すると、データ品質を維持し、機密情報を保護し、規制要件を満たし、データ資産の価値を最大化できます。

データガバナンスの主なコンポーネントは次のとおりです。

  • アクセス制御とセキュリティ : きめ細かな権限とセキュリティ対策を実装して、不正アクセスからデータを保護しながら適切な使用を可能にします。
  • データ リネージと可観測性 : データのフローと変換を追跡して、データの起源、依存関係、使用パターンを理解します。
  • データ品質管理 : データが正確、完全、一貫性があり、意思決定や分析に信頼できるものであることを保証します。
  • メタデータ管理 : データ資産に関する情報を取得および維持して、発見可能性と理解を向上させます。
  • コンプライアンスの実施 : データのプライバシー、保持、使用に関する規制要件と組織ポリシーを満たします。

このページでは、Databricks の Unity Catalog を使用したデータのガバナンスに焦点を当てています。認証、ネットワーク構成、データ暗号化、プライバシー コンプライアンスなどの関連するセキュリティ トピックについては、 「セキュリティとコンプライアンス」および「コンプライアンスの概要」で説明しています。

Unity Catalogデータガバナンスモデル

Unity Catalog は、複数の形式の構造化データと非構造化データの両方のガバナンスを提供する集中型データカタログです。機械学習モデルなどの AI 資産に対するきめ細かなアクセス制御とガバナンスを提供します。Unity Catalog はオープンソースであり、複数のプラットフォームをサポートしています。Databricks に深く統合されています。

Unity Catalog 、以下を提供する完全なデータガバナンス ソリューションです。

  • データの統合:プラットフォーム間ですべてのデータとAI資産を一元的に表示し、重複とスプロール化を削減します。
  • データ アクセス制御: 適切なユーザーのみがデータにアクセスできるようにするツール。
  • データの検出可能性: 必要なデータを簡単に見つけることができるツール。
  • データ品質:データの正確性、完全性、一貫性、ライフサイクル全体にわたる安全性を確保するためのツール。
  • データのコラボレーションと共有: 組織内だけでなく、組織やプラットフォームの境界を越えてデータを安全に共有するためのツール。
  • 監査: 誰がどのようにデータを使用するかを把握するツール。

このページでは、組織が Databricks の Unity Catalog を使用してこれらのニーズを満たす方法について説明します。

データアクセス制御

ユーザーが必要なデータにのみアクセスできるように、 Unity Catalog には、ユーザー、グループ、サービスプリンシパルに、アカウント レベルからテーブルの行と列までのデータと AI 資産へのアクセス権を付与できる階層型特権モデルが用意されています。 専用の Unity Catalog ストレージに保存されているアセットや、クラウドストレージやデータベースシステムなどの他のプラットフォームに保存されているアセットへのアクセスを制御することができます: 重要なのは、Unity Catalog が Databricks 内のどこにあるかに関係なく、ユーザーにすべてのデータへの潜在的なアクセスを提供し、Unity Catalog がユーザーのアクセスを制御し、データ使用量を追跡することです。

タスク

説明

権限の管理

Unity Catalog が管理するセキュリティ保護可能なオブジェクトと、それらへのアクセスを制御する方法について説明します。

属性ベースのアクセス制御 (ABAC) の管理

Unity Catalog の ABAC を使用してデータへのアクセスを制御する方法について説明します。

ID を管理する

Unity Catalog のコンテキストで ID を管理する方法について説明します。

きめ細かなアクセス制御

行フィルタと列マスクを使用してテーブルデータへのアクセスを制御する方法について説明します。

外部ストレージとデータ プラットフォームへのアクセスを管理する

Unity Catalog を使用して、クラウドストレージ、外部データプラットフォーム、外部の非データサービスへのアクセスを制御する方法を学びます。

外部プラットフォームからのアクセスを管理する

Unity Catalog が Apache Iceberg または オープンソース の Unity Catalog APIsを使用する外部プラットフォームからデータへのアクセスを管理する方法について説明します。

データの発見可能性

Databricks と Unity Catalog には、ユーザーが必要なデータを見つけるのに役立つ次のツールが用意されています。

機能

説明

カタログエクスプローラー

アセット名とメタデータ (コメントやタグなど) を使用して、データと AI アセットを参照および検索します。

カタログブラウザ

データと AI アセットは、ノートブックと SQL クエリ エディターに組み込まれているブラウザーを使用して検索します。「Databricks ノートブックとファイル エディターの操作」および「新しい SQL エディターでのクエリの記述とデータの探索」を参照してください。

AIが生成したコメント

データとAI資産のドキュメントを自動的に生成して、発見可能性を支援します。

テーブルインサイト

Catalog Explorer に組み込まれた UI を使用して、Unity Catalog の任意のテーブルで最も頻繁に使用されるユーザーとクエリを表示します。

データリネージ

組織が流れるデータの流れをキャプチャして視覚化します。

機能とモデルのリネージについては、 機能のガバナンスとリネージを参照してください。

エンティティ関係図 (ERD)

外部キーが定義されているテーブルのリレーションシップを表示します。

「データの検出」も参照してください。

データ品質モニタリング

データ品質とデータの完全性を確保するためのツールは、 Delta Lake、 Apache Spark、および Databricksに深く統合されています。 それらについては、 Databricksドキュメント全体で学ぶことができます。

Unity Catalog には、次のものが追加されます。

機能

説明

データ品質モニタリング

データ品質モニタリングは、 Unity Catalog内のすべてのデータ資産の品質を保証するのに役立ちます。 これには、カタログまたはスキーマ内のすべてのテーブルのデータ品質を監視する異常検出と、個々のテーブルのデータの統計的特性と品質を監視するデータプロファイリングが含まれます。

認定済みおよび非推奨のシステム タグ (プライベート プレビュー)

カタログ、スキーマ、テーブルなどのセキュリティ保護可能なオブジェクトに、データ品質またはライフサイクル ステータスのインジケーターをラベル付けします。これらのシステムタグは、組織がガバナンスを強化し、データの検出可能性を向上させ、アナリティクスおよび AI アプリケーションの信頼性を高めるのに役立ちます。

データのコラボレーションと共有

Unity Catalog を使用すると、ユーザーは同じリージョン内のアカウントのすべてのワークスペースで同じデータで共同作業を行うことができます。ワークスペースのリージョン間、組織間、プラットフォーム間でのコラボレーションが必要な場合、Unity Catalog は次の共有ツールの基盤を提供します。

機能

説明

Delta Sharing

Databricks のデータと AI アセットを、Databricks を使用しているかどうかに関係なく、組織外のユーザーと共有できる安全なデータ共有プラットフォームです。

クリーンルーム

Databricks プラットフォームと Databricks 以外のプラットフォーム上の複数の参加者が、基になるデータを相互に共有することなくプロジェクトで共同作業できる、Databricks で管理される環境。

Databricks Marketplace

データ交換や製品の AI のためのオープンフォーラムです。 また、プライベートなデータ交換も提供します。

聴講

監査ログ には、特定のデータセットにアクセスしたユーザーと、そのユーザーが実行したアクションに関する詳細な情報がキャプチャされます。Unity Catalog 、アカウントの監査ログにアクセスしてクエリを実行する最も簡単な方法である システムテーブル を追加します。

監査ログのリファレンスおよびシステムテーブルを使用したアカウントアクティビティのモニタリングを参照してください。

レガシー Databricks データガバナンス ツール

Databricks は、これらの従来のガバナンス機能も提供します。Databricks では、代わりに Unity Catalog を使用することをお勧めします。

機能

説明

テーブルのアクセス制御

ワークスペースの組み込みによって管理されるオブジェクトへのアクセスをプログラムで許可および取り消すことができる従来のデータガバナンス モデル Hive metastore.

IAMロール資格情報のパススルー

S3ユーザーがDatabricks へのログインに使用する ID を使用して、 クラスタリングから バケットに対して自動的に認証できるようにする従来のデータガバナンス機能。Databricks

次のステップ