Databricks によるデータガバナンス
このページでは、Databricks で Unity Catalog を使用してデータを管理する方法の概要について説明します。
このページでは、データのガバナンスに焦点を当てています。次のような関連するセキュリティのトピックについては、「 セキュリティとコンプライアンス」で説明しています。
- 認証とアクセス制御
- ネットワーク構成
- データのセキュリティと暗号化
- プライバシーとコンプライアンス
Unity Catalog とは何ですか?
Unity Catalog は、機械学習モデルなどの AI アセットのガバナンスとともに、複数のプラットフォーム上の複数の形式の表形式データと非構造化データに対するきめ細かなアクセス制御を提供する一元化されたデータカタログです。また、データの検出、使用状況の追跡、リネージのキャプチャ、データ品質の監視に必要なツールも含まれています。
Unity Catalog は オープンソース であり、複数のプラットフォームをサポートしています。これは Databricks に深く統合されています。
Unity Catalog とはを参照してください。
Unity Catalogデータガバナンスモデル
データガバナンス with Unity Catalog は、次の機能を提供します。
- データの統合:プラットフォーム間ですべてのデータとAI資産を一元的に表示し、重複とスプロール化を削減します。
- データアクセス制御:データに簡単にアクセスできるようにするためのツールで、適切なユーザーのみがアクセスできます。
- データの検出可能性: 必要なデータを簡単に見つけることができるツール。
- データ品質:データの正確性、完全性、一貫性、ライフサイクル全体にわたる安全性を確保するためのツール。
- データのコラボレーションと共有:組織内だけでなく、組織やプラットフォームの境界を越えてデータを安全に共有する能力。
- 監査: 誰がどのようにデータを使用するかを把握するツール。
このページでは、組織が Databricks の Unity Catalog を使用してこれらのニーズを満たす方法について説明します。
データアクセス制御
ユーザーが必要なデータにのみアクセスできるように、 Unity Catalog には、ユーザー、グループ、サービスプリンシパルに、アカウント レベルからテーブルの行と列までのデータと AI 資産へのアクセス権を付与できる階層型特権モデルが用意されています。 専用の Unity Catalog ストレージに保存されているアセットや、クラウドストレージやデータベースシステムなどの他のプラットフォームに保存されているアセットへのアクセスを制御することができます: 重要なのは、Unity Catalog が Databricks 内のどこにあるかに関係なく、ユーザーにすべてのデータへの潜在的なアクセスを提供し、Unity Catalog がユーザーのアクセスを制御し、データ使用量を追跡することです。
タスク | 説明 |
---|---|
Unity Catalog が管理するセキュリティ保護可能なオブジェクトと、それらへのアクセスを制御する方法について説明します。 | |
Unity Catalog のコンテキストで ID を管理する方法について説明します。 | |
行フィルタと列マスクを使用してテーブルデータへのアクセスを制御する方法について説明します。 | |
Unity Catalog を使用して、クラウドストレージ、外部データプラットフォーム、外部の非データサービスへのアクセスを制御する方法を学びます。 | |
Unity Catalog が Apache Iceberg または オープンソース の Unity Catalog APIsを使用する外部プラットフォームからデータへのアクセスを管理する方法について説明します。 |
データの発見可能性
Databricks と Unity Catalog には、ユーザーが必要なデータを見つけるのに役立つ次のツールが用意されています。
機能 | 説明 |
---|---|
アセット名とメタデータ (コメントやタグなど) を使用して、データと AI アセットを参照および検索します。 | |
カタログブラウザ | データと AI アセットは、ノートブックと SQL クエリ エディターに組み込まれているブラウザーを使用して検索します。「Databricks ノートブックとファイル エディターの操作」および「SQL エディターでのクエリの記述とデータの探索」を参照してください。 |
データとAI資産のドキュメントを自動的に生成して、発見可能性を支援します。 | |
Catalog Explorer に組み込まれた UI を使用して、Unity Catalog の任意のテーブルで最も頻繁に使用されるユーザーとクエリを表示します。 | |
組織が流れるデータの流れをキャプチャして視覚化します。 機能とモデルのリネージについては、 機能のガバナンスとリネージを参照してください。 | |
外部キーが定義されているテーブルのリレーションシップを表示します。 |
「データの検出」も参照してください。
Data quality モニタリング
データ品質とデータの完全性を確保するためのツールは、 Delta Lake、 Apache Spark、および Databricksに深く統合されています。 それらについては、 Databricksドキュメント全体で学ぶことができます。
Unity Catalog には、次のものが追加されます。
機能 | 説明 |
---|---|
アカウント内のすべてのテーブルのデータの統計的プロパティと品質をキャプチャするデータモニタリングツール。 また、これを使用して、モデル入力と予測を含む推論テーブルを監視することにより、機械学習モデルとモデルサービングエンドポイントのパフォーマンスを追跡することもできます。 | |
カタログ、スキーマ、テーブルなどのセキュリティ保護可能なオブジェクトに、データ品質またはライフサイクル ステータスのインジケーターをラベル付けします。これらのシステムタグは、組織がガバナンスを強化し、データの検出可能性を向上させ、アナリティクスおよび AI アプリケーションの信頼性を高めるのに役立ちます。 |
データのコラボレーションと共有
Unity Catalog を使用すると、ユーザーは同じリージョン内のアカウントのすべてのワークスペースで同じデータで共同作業を行うことができます。ワークスペースのリージョン間、組織間、プラットフォーム間でのコラボレーションが必要な場合、Unity Catalog は次の共有ツールの基盤を提供します。
機能 | 説明 |
---|---|
Databricks のデータと AI アセットを、Databricks を使用しているかどうかに関係なく、組織外のユーザーと共有できる安全なデータ共有プラットフォームです。 | |
Databricks プラットフォームと Databricks 以外のプラットフォーム上の複数の参加者が、基になるデータを相互に共有することなくプロジェクトで共同作業できる、Databricks で管理される環境。 | |
データ交換や製品の AI のためのオープンフォーラムです。 また、プライベートなデータ交換も提供します。 |
聴講
監査ログ には、特定のデータセットにアクセスしたユーザーと、そのユーザーが実行したアクションに関する詳細な情報がキャプチャされます。Unity Catalog 、アカウントの監査ログにアクセスしてクエリを実行する最も簡単な方法である システムテーブル を追加します。
監査ログのリファレンスおよびシステムテーブルを使用したアカウントアクティビティのモニタリングを参照してください。
レガシー Databricks データガバナンス ツール
Databricks は、これらの従来のガバナンス機能も提供します。Databricks では、代わりに Unity Catalog を使用することをお勧めします。
機能 | 説明 |
---|---|
ワークスペースの組み込みによって管理されるオブジェクトへのアクセスをプログラムで許可および取り消すことができる従来のデータガバナンス モデル Hive metastore. | |
S3ユーザーがDatabricks へのログインに使用する ID を使用して、 クラスタリングから バケットに対して自動的に認証できるようにする従来のデータガバナンス機能。Databricks |
次のステップ
- Unity Catalog の詳細: Unity Catalog とは?
- Unity Catalog の使用を開始する: Unity Catalog の使用を開始する
- ベストプラクティスのレビュー: Unity Catalog とは