データガバナンス のベストプラクティス

この記事では、次のセクションに示すアーキテクチャの原則別に整理されたデータ ガバナンスのベスト プラクティスについて説明します。

1. データマネジメント の統一

すべてのデータ資産のメタデータを 1 か所 で管理

ベスト プラクティスとして、1 つのUnity Catalogを持つ単一のアカウントでレイクハウスを実行します。 Unity Catalog内のオブジェクトの最上位コンテナはメタストアです。 これには、データ資産 (テーブルやビューなど) と、それらへのアクセスを制御するアクセス許可が格納されます。 レイテンシーの問題を避けるために、クラウド リージョンごとに 1 つのメタストアを使用し、リージョンをまたがるメタストアにアクセスしないでください。

メタストアは、次の 3 レベルの名前空間を提供します。

Databricks では 、カタログを使用して、組織の情報アーキテクチャ全体で分離を提供することをお勧めします。 多くの場合、これは、カタログがソフトウェア開発環境のスコープ、チーム、または部署に対応できることを意味します。

データリネージを追跡してデータの 可視性を高める

データリネージは、データリーダーが組織内のデータの可視性と理解を深めるのに役立つ強力なツールです。 ソースから知見へのデータの変換と改良について説明します。 系列には、データ セットのソース、データ セットの作成に使用された他のデータ セット、作成者と日時、実行された変換、使用する他のデータ セット、その他多くのイベントと属性など、ライフサイクル内のデータに関連付けられているすべての関連するメタデータとイベントのキャプチャが含まれます。 データリネージは、多くのデータ関連のユースケースに使用できます。

  • コンプライアンスと監査の準備: データリネージは、組織がテーブルとフィールドのソースを追跡するのに役立ちます。 これは、EU 一般データ保護規則 (GDPR)、カリフォルニア州消費者プライバシー法 (CCPA)、医療保険の相互運用性と説明責任に関する法律 (HIPPA)、バーゼル銀行監督委員会 (BCBS) 239、サーベンス・オクスリー法 (SOX) など、多くのコンプライアンス規制の要件を満たすために重要です。

  • 影響分析/変更管理: データは、ソースから最終的なビジネス対応テーブルまで、複数の変換が行われます。 データ変更がダウンストリーム ユーザーに与える潜在的な影響を理解することは、リスク管理の観点から重要になります。 この影響は、 Unity Catalogによって収集されたデータリネージを使用して簡単に判断できます。

  • データ品質保証: データ セットがどこから来て、どのような変換が適用されたかを理解することで、データ サイエンティストやアナリストははるかに優れたコンテキストを提供し、より適切で正確な知見を得ることができます。

  • デバッグと診断: 予期しない結果が発生した場合、データリネージは、エラーをソースまでさかのぼって追跡することで、データ チームが根本原因分析を実行するのに役立ちます。 これにより、デバッグ時間が大幅に短縮されます。

Unity Catalog は、Databricks で実行されるクエリー全体のランタイム データリネージ をキャプチャします。 リネージはすべての言語でサポートされており、列レベルまでキャプチャされます。 リネージデータには、クエリーに関連するノートブック、ワークフロー、ダッシュボードが含まれます。 リネージは、 カタログエクスプローラー でほぼリアルタイムで視覚化し、Databricks データリネージ REST API を使用して取得できます。

2. データセキュリティ の統合

アクセス制御 の一元化

Databricks Data Intelligence Platform は、データ アクセス制御のメソッド、つまりどのグループまたは個人がどのデータにアクセスできるかを記述するメカニズムを提供します。 これらは、各個人がアクセスできるすべての記録の定義に至るまで、非常に詳細で具体的なポリシーの声明です。 または、すべての財務ユーザーがすべての財務データを表示できるなど、非常に表現力豊かで幅広いものにすることもできます。

Unity Catalog 、ファイル、テーブル、およびビューのアクセス制御を一元化します。 Unity Catalog 内のセキュリティ保護可能な各オブジェクトには所有者がいます。オブジェクトの所有者は、オブジェクトに対するすべての権限と、セキュリティ保護可能なオブジェクトに対する権限を他のプリンシパルに付与する権限を持ちます。 Unity Catalog では、 特権を管理し、SQL DDL ステートメントを使用して アクセス制御を構成できます

Unity Catalog では、動的ビューを使用してきめ細かなアクセス制御を行うため、行と列へのアクセスを、クエリを許可されているユーザーとグループに制限できます。 ダイナミック ビューの作成を参照してください。

詳細については 、「セキュリティ、コンプライアンス、プライバシー - 最小限の特権を使用して ID とアクセスを管理する」を参照してください。

監査ログ を構成する

Databricks は、Databricks ユーザーによって実行されたアクティビティの 監査ログ へのアクセスを提供し、企業が詳細な Databricks の使用パターンを監視できるようにします。 ログには、ワークスペースレベルのイベントを含むワークスペースレベルの監査ログと、アカウントレベルのイベントを含むアカウントレベルの監査ログの 2 種類があります。

監査 Unity Catalog イベント

Unity Catalog は、メタストアに対して実行されたアクションの 監査ログをキャプチャ します。 これにより、管理者は、特定のデータセットにアクセスしたユーザーと、そのユーザーが実行したアクションに関する詳細な情報にアクセスできます。

データ共有イベントの 監査

Delta Sharingによる安全な共有のために、Databricks は次のようなDelta Sharingイベントを監視する監査ログを提供します。

  • 誰かが共有または受信者を作成、変更、更新、または削除したとき。

  • 受信者がアクティベーションリンクにアクセスし、資格情報をダウンロードしたとき。

  • 受信者が共有テーブル内の共有またはデータにアクセスするとき。

  • 受信者の資格情報がローテーションまたは期限切れになったとき。

3. データ品質 を管理する

Databricks Data Intelligence Platform は、組み込みの品質管理、テスト、モニタリング、施行による堅牢なデータ品質管理を提供し、ダウンストリームの BI、アナリティクス、機械学習のワークロードで正確で有用なデータを利用できるようにします。

「信頼性 - データ品質の管理」を参照してください。

4.データを安全かつリアルタイムで共有する

オープン Delta Sharing プロトコルを使用してパートナー とデータを共有する

Delta Sharing は、レイクハウスから任意のコンピューティングプラットフォームに ライブデータを安全に共有するためのオープンソリューションを提供します 。受信者は、Databricks プラットフォーム、同じクラウド、または任意のクラウド上にいる必要はありません。 Delta Sharing は Unity Catalog とネイティブに統合されているため、組織は企業全体で共有データを一元的に管理および監査し、セキュリティとコンプライアンスの要件を満たしながらデータ資産を自信を持って共有できます。

データプロバイダーは、ライブデータを複製したり別のシステムに移動したりすることなく、クラウドストレージ内の場所からライブデータを共有できます。 このアプローチでは、データ プロバイダーがクラウド、地域、またはデータ プラットフォーム間で各データ コンシューマーにデータを複数回レプリケートする必要がないため、データ共有の運用コストが削減されます。

Databricksユーザー 間で Databricks 対 Databrick s Delt a Sharing を使用す

Unity Catalo g メタストアにアクセスできないユーザーとデータを共有する場合は、受信者 が Unity Catalo g が有効になっている Databricks ワークスペースにアクセスできる限り、Databricks から Databrick s Delta Sharing を使用できます。Databricks 間の共有を使用すると、他の Databricks アカウントのユーザー、クラウド リージョン間、クラウド プロバイダー間でデータを共有できます。 これは、独自の Databricks アカウント内のさまざまな Unity Catalog メタストア間でデータを安全に共有するための優れた方法です。