データガバナンス のベストプラクティス
この記事では、次のセクションに示すアーキテクチャの原則別に整理されたデータ ガバナンスのベスト プラクティスについて説明します。
1. データマネジメント の統一
すべてのデータ資産のメタデータを 1 か所 で管理
ベスト プラクティスとして、1 つのUnity Catalogを持つ単一のアカウントでレイクハウスを実行します。 Unity Catalog内のオブジェクトの最上位コンテナはメタストアです。 これには、データ資産 (テーブルやビューなど) と、それらへのアクセスを制御するアクセス許可が格納されます。 レイテンシーの問題を避けるために、クラウド リージョンごとに 1 つのメタストアを使用し、リージョンをまたがるメタストアにアクセスしないでください。
メタストアは、次の 3 レベルの名前空間を提供します。
Databricks では 、カタログを使用して、組織の情報アーキテクチャ全体で分離を提供することをお勧めします。 多くの場合、これは、カタログがソフトウェア開発環境のスコープ、チーム、または部署に対応できることを意味します。
データリネージを追跡してデータの 可視性を高める
データリネージは、データリーダーが組織内のデータの可視性と理解を深めるのに役立つ強力なツールです。 ソースから知見へのデータの変換と改良について説明します。 系列には、データ セットのソース、データ セットの作成に使用された他のデータ セット、作成者と日時、実行された変換、使用する他のデータ セット、その他多くのイベントと属性など、ライフサイクル内のデータに関連付けられているすべての関連するメタデータとイベントのキャプチャが含まれます。 データリネージは、多くのデータ関連のユースケースに使用できます。
コンプライアンスと監査の準備: データリネージは、組織がテーブルとフィールドのソースを追跡するのに役立ちます。 これは、EU 一般データ保護規則 (GDPR)、カリフォルニア州消費者プライバシー法 (CCPA)、医療保険の相互運用性と説明責任に関する法律 (HIPPA)、バーゼル銀行監督委員会 (BCBS) 239、サーベンス・オクスリー法 (SOX) など、多くのコンプライアンス規制の要件を満たすために重要です。
影響分析/変更管理: データは、ソースから最終的なビジネス対応テーブルまで、複数の変換が行われます。 データ変更がダウンストリーム ユーザーに与える潜在的な影響を理解することは、リスク管理の観点から重要になります。 この影響は、 Unity Catalogによって収集されたデータリネージを使用して簡単に判断できます。
データ品質保証: データ セットがどこから来て、どのような変換が適用されたかを理解することで、データ サイエンティストやアナリストははるかに優れたコンテキストを提供し、より適切で正確な知見を得ることができます。
デバッグと診断: 予期しない結果が発生した場合、データリネージは、エラーをソースまでさかのぼって追跡することで、データ チームが根本原因分析を実行するのに役立ちます。 これにより、デバッグ時間が大幅に短縮されます。
でUnity Catalog データリネージ アクロスクエリをキャプチャします。Databricksリネージはすべての言語でサポートされており、列レベルまでキャプチャされます。 リネージ データには、クエリに関連するデータベース、ワークフロー、ダッシュボードが含まれます。 リネージは、ほぼリアルタイムでCatalog Explorerで視覚化でき、 Databricks データリネージREST APIを使用して取得できます。
2. データセキュリティ の統合
アクセス制御 の一元化
Databricks Data Intelligence Platform は、データ アクセス制御のメソッド、つまりどのグループまたは個人がどのデータにアクセスできるかを記述するメカニズムを提供します。 これらは、各個人がアクセスできるすべての記録の定義に至るまで、非常に詳細で具体的なポリシーの声明です。 または、すべての財務ユーザーがすべての財務データを表示できるなど、非常に表現力豊かで幅広いものにすることもできます。
Unity Catalog 、ファイル、テーブル、およびビューのアクセス制御を一元化します。 Unity Catalog 内のセキュリティ保護可能な各オブジェクトには所有者がいます。オブジェクトの所有者は、オブジェクトに対するすべての権限と、セキュリティ保護可能なオブジェクトに対する権限を他のプリンシパルに付与する権限を持ちます。 Unity Catalog では、 特権を管理し、SQL DDL ステートメントを使用して アクセス制御を構成できます 。
Unity Catalog では、動的ビューを使用してきめ細かなアクセス制御を行うため、行と列へのアクセスを、クエリを許可されているユーザーとグループに制限できます。 ダイナミック ビューの作成を参照してください。
詳細については 、「セキュリティ、コンプライアンス、プライバシー - 最小限の特権を使用して ID とアクセスを管理する」を参照してください。
監査ログ を構成する
Databricks は、Databricks ユーザーが実行したアクティビティの監査ログへのアクセスを提供し、企業が詳細な Databricks の使用パターンを監視できるようにします。 ログには、ワークスペース レベルのイベントを含むワークスペース レベルの監査ログと、アカウント レベルのイベントを含むアカウント レベルの監査ログの 2 種類があります。
監査 Unity Catalog イベント
Unity Catalog は、メタストアに対して実行されたアクションの 監査ログをキャプチャ します。 これにより、管理者は、特定のデータセットにアクセスしたユーザーと、そのユーザーが実行したアクションに関する詳細な情報にアクセスできます。
データ共有イベントの 監査
Delta Sharingによる安全な共有のために、Databricks は次のようなDelta Sharingイベントを監視する監査ログを提供します。
誰かが共有または受信者を作成、変更、更新、または削除したとき。
受信者がアクティベーションリンクにアクセスし、資格情報をダウンロードしたとき。
受信者が共有テーブル内の共有またはデータにアクセスするとき。
受信者の資格情報がローテーションまたは期限切れになったとき。
3. データ品質 を管理する
Databricks Data Intelligence Platform は、組み込みの品質管理、テスト、モニタリング、施行による堅牢なデータ品質管理を提供し、ダウンストリームの BI、アナリティクス、機械学習のワークロードで正確で有用なデータを利用できるようにします。
「信頼性 - データ品質の管理」を参照してください。