データとAIガバナンスのベストプラクティス

この記事では、 データと AI ガバナンス のベストプラクティスを、次のセクションに示すアーキテクチャ原則別に整理して説明します。

1. データとAI管理の統合

データとAIのガバナンスプロセスを確立する

データと AI ガバナンスとは、組織のデータと AI 資産の可用性、使いやすさ、整合性、セキュリティの管理です。データと AI のガバナンスを強化することで、組織は正確なアナリティクスと意思決定に不可欠な資産の品質を確保し、新たな機会を特定し、顧客満足度を向上させ、最終的には収益を増やすことができます。これは、組織がデータとAIのプライバシー規制に準拠し、セキュリティ対策を改善し、データ侵害や罰則のリスクを軽減するのに役立ちます。また、効果的なデータと AI のガバナンスにより、冗長性が排除され、データマネジメントが合理化されるため、コスト削減と運用効率の向上につながります。

組織向けにUnity Catalogをデザインする

メタストア、カタログ、スキーマの構造は、組織のガバナンスモデルとデータアーキテクチャに合わせて設計してください。

ガバナンスモデルを選択する

集中型ガバナンスモデル では、ガバナンス管理者はメタストアの所有者であり、あらゆるオブジェクトの所有権を取得し、権限を付与および取り消すことができます。強力な中央IT管理体制と厳格なコンプライアンス要件を持つ組織に最適です。
分散型（連邦型）ガバナンスモデル では、カタログまたはカタログの集合がデータドメインとなる。そのカタログの所有者は、そのドメイン内のすべての資産を作成および所有し、そのドメイン内のガバナンスを管理できます。特定のドメインの所有者は、他のドメインの所有者とは独立して活動することができる。自律的な事業部門を持つ大規模組織に最適です。
ハイブリッド型のガバナンスモデル では、機密データについては集中型ガバナンスを、運用データについては連邦型ガバナンスを組み合わせます。ほとんどの企業組織にとって最適です。

メタストアのアーキテクチャを設計する ：最適なパフォーマンスを実現するために、クラウドリージョンごとに1つのメタストアをデプロイする。地域ごとのデータ所在地の要件に基づいて、ワークスペースをメタストアに割り当てます。マルチクラウド展開を計画する際は、クラウドプロバイダーごとに個別のメタストアを作成してください。

カタログ構造の設計 ：データ構成を反映したカタログパターンを選択してください。

ドメインベースのカタログ（推奨） ：ビジネスドメインごとに1つのカタログ（例： sales 、 marketing 、 finance ）。
環境ベースのカタログ : 開発、ステージング、本番運用用に個別のカタログ
データライフサイクルベースのカタログ : 生のデータ、厳選されたデータ、およびアナリティクスデータのカタログ

スキーマ構造の設計 ：スキーマを使用して、カタログ内のデータ製品を整理します。メダリオンアーキテクチャの場合、各カタログ内にブロンズ、シルバー、ゴールドレイヤーのスキーマを作成します (例: sales.bronze_transactions 、 sales.silver_transactions 、 sales.gold_metrics )。

Unity Catalog設計に関する詳細なガイダンスと実装手順については、「フェーズ3： Unity Catalogアーキテクチャ設計」を参照してください。

データおよびAIガバナンスソリューションであるUnity Catalogは、Databricksデータインテリジェンスプラットフォームに統合されています。すべてのガバナンスモデルをサポートし、あらゆるクラウドまたはプラットフォーム上の構造化データと非構造化データ、 MLモデル、ノートブック、ダッシュボード、およびファイルをシームレスに管理するのに役立ちます。 Unity Catalogベストプラクティスは、データおよびAIガバナンスの実装に役立ちます。

すべてのデータとAIアセットのメタデータを1か所で管理

すべてのアセットのメタデータを 1 か所で管理する利点は、すべてのデータの信頼できる唯一のソースを維持する利点と似ています。これには、データの冗長性の削減、データの完全性の向上、定義や分類法の違いによる誤解の排除が含まれます。また、グローバルなポリシー、標準、ルールを 1 つのソースで実装することも容易になります。

ベストプラクティスとして、Unity Catalog が有効な単一のアカウントで Databricks を実行してください。Unity Catalog は、データとボリューム (任意のファイル)、および特徴量や AI モデルなどの AI アセットを管理できます。Unity Catalog 内のオブジェクトの最上位のコンテナーは、メタストアです。データアセット (テーブルやビューなど) およびそれらへのアクセスを制御する権限が格納されます。クラウドリージョンごとに単一のメタストアを使用し、レイテンシーの問題を回避するためにリージョンをまたいでメタストアにアクセスしないでください。

メタストアは、データ、ボリューム、AI アセットを構造化するための 3 つのレベルの名前空間を提供します。

Databricks では、カタログを使用して組織の情報アーキテクチャ全体を分離することをお勧めします。多くの場合、これは、カタログがソフトウェア開発環境のスコープ、チーム、またはビジネスユニットに対応できることを意味します。

データを追跡し、リネージ AI してデータの可視性を高めます

データリネージは、データリーダーが組織内のデータの可視性と理解を高めるのに役立つ強力なツールです。データリネージは、ソースから知見へのデータの変換と改良について説明しています。これには、データセットのソース、データの作成に使用された他のデータセット、誰がいつ作成したか、実行された変換、それを使用する他のデータセット、その他多くのイベントと属性など、ライフサイクル全体を通じてデータに関連付けられたすべての関連メタデータとイベントのキャプチャが含まれます。

さらに、 Unity Catalogのテーブルでモデルをトレーニングすると、モデルのリネージを、トレーニングおよび評価されたアップストリームデータセットまで追跡できます。

リネージは、データ関連の多くのユースケースに使用できます。

コンプライアンスと監査の準備: データリネージは、組織がテーブルとフィールドのソースをトレースするのに役立ちます。これは、EU 一般データ保護規則 (GDPR)、カリフォルニア州消費者プライバシー法 (CCPA)、医療保険の相互運用性と説明責任に関する法律 (HIPPA)、バーゼル銀行監督委員会 (BCBS) 239、サーベンスオクスリー法 (SOX) など、多くのコンプライアンス規制の要件を満たすために重要です。
影響分析/変更管理 : データは、ソースから最終的なビジネス対応テーブルまで、複数の変換を受けます。データの変更がダウンストリームのユーザーに対する潜在的な影響を理解することは、リスク管理の観点から重要になります。この影響は、 Unity Catalogによってキャプチャされたデータリネージを使用して簡単に決定できます。
データ品質保証 :データセットがどこから来て、どのような変換が適用されたかを理解することで、データサイエンティストとアナリストにとってはるかに優れたコンテキストが提供され、より適切で正確な知見を得ることができます。
デバッグと診断 : 予期しない結果が発生した場合、データリネージは、エラーをソースまでさかのぼって追跡することにより、データチームが根本原因分析を実行できるようにします。これにより、トラブルシューティングの時間が大幅に短縮されます。

Unity Catalog Databricks上で実行されているクエリ全体でランタイムデータリネージをキャプチャし、モデルリネージもキャプチャします。リネージはすべての言語でサポートされており、列レベルまでキャプチャされます。リネージデータには、クエリに関連するノートブック、ジョブ、ダッシュボードが含まれます。リネージはカタログエクスプローラーですぐに視覚化できます。

メタデータに一貫性のある説明を追加

説明は、データに不可欠なコンテキストを提供します。これらは、ユーザーがデータテーブルと列の目的と内容を理解するのに役立ちます。この明確さにより、必要なデータをより簡単に検出、特定、フィルタリングできるようになり、これは効果的なデータ分析と意思決定に不可欠です。説明には、データの機密性とコンプライアンス情報を含めることができます。これにより、組織はデータのプライバシーとセキュリティに関する法的および規制上の要件を満たすことができます。説明には、データのソース、正確性、関連性に関する情報も含める必要があります。これにより、データの完全性が確保され、チーム間のコラボレーションが向上します。

Unity Catalog の 2 つの主要な機能は、テーブルと列の記述をサポートしています。 Unity Catalogを用いることで、

コメントの形式でテーブルと列に コメントを追加 します。

また、Unity Catalog によって管理される任意のテーブルまたはテーブル列に AI 生成のコメントを追加して、プロセスを高速化することもできます。ただし、AIモデルは常に正確であるとは限らず、コメントを保存する前に確認する必要があります。 Databricks では、AI が生成したコメントを人間がレビューして不正確さをチェックすることを強くお勧めします。
Unity Catalog 内の任意のセキュリティ保護可能なリソースに タグを追加 します。タグは、Unity Catalog のさまざまなセキュリティ保護可能なオブジェクトに適用できるキーと省略可能な値を持つ属性です。タグ付けは、メタストア内のさまざまなセキュリティ保護可能なオブジェクトを整理および分類する場合に便利です。また、タグを使用すると、データ資産の検索と検出が容易になります。

データ消費者が簡単にデータディスカバリーを利用できるようにする

Easy データディスカバリーを使用すると、データサイエンティスト、データアナリスト、データエンジニアは、関連するデータをすばやく見つけて参照し、価値実現までの時間を短縮できます。

Databricksのカタログエクスプローラは、データ、スキーマ (データベース)、テーブル、権限、データ所有者、外部ロケーション、および認証情報を探索および管理するためのユーザーインターフェイスを提供します。また、カタログエクスプローラの [洞察] タブを使用して、Unity Catalogに登録されている任意のテーブルで最も頻繁に使用される最近のクエリとユーザーを表示できます。

AI資産をデータとともに管理

データガバナンスと人工知能(AI)の関係は、成功にとって重要になっています。組織がデータをどのように管理、保護、使用するかは、AI実装の結果と考慮事項に直接影響します。つまり、高品質のデータがなければAIはあり得ず、データガバナンスがなければ高品質のデータを持つことはできません。

データとAIを一緒に管理することで、高品質で最新のデータへのシームレスなアクセスを確保することでAIのパフォーマンスが向上し、精度の向上と意思決定の向上につながります。サイロ化を解消することで、コラボレーションの改善とワークフローの合理化が可能になり、効率が向上し、生産性の向上とコストの削減につながります。

また、統一されたガバナンスアプローチにより、一貫したデータ処理方法が確立され、脆弱性が軽減され、組織が機密情報を保護する能力が向上するため、データセキュリティの向上もメリットとなります。データと AI ガバナンスが統合されている場合、データ処理と AI プロセスが規制要件に準拠しているため、データプライバシー規制へのコンプライアンスを維持しやすくなります。

全体として、統一されたガバナンスアプローチは、データと AI の両方に対して明確なポリシーと手順を確立することで、利害関係者間の信頼を育み、AI の意思決定プロセスの透明性を確保します。

Databricks Data Intelligence Platform では、Unity Catalog はデータと AI アセットの両方を管理するための中心的なコンポーネントです。

Unity Catalog の機能

Unity Catalog対応のワークスペースでは、 data scientists Unity Catalogで特徴量テーブルを作成できます。これらの特徴量テーブルはUnity Catalogによって管理されるDeltaテーブルまたはLakeflow Spark宣言型パイプラインです。
Unity Catalog上のモデル

Unity Catalog のモデルは、一元化されたアクセス制御、監査、リネージ、ワークスペース間でのモデル検出など、Unity Catalog の利点を ML モデルに拡張します。 Unity Catalogのモデルの主な特徴は、モデルのガバナンス、時系列モデルのリネージ、モデルのバージョニング、エイリアスによるモデルのデプロイなどです。

2. データとAIのセキュリティを統合

すべてのデータとAI資産のアクセス制御を一元化

すべてのデータ資産のアクセス制御を一元化することは、データと AI 資産のアクセスを一元的に管理および監査する場所を提供することで、これらの資産のセキュリティとガバナンスを簡素化するため、重要です。このアプローチは、データとAIオブジェクトへのアクセスをより効率的に管理し、規制コンプライアンスとリスク回避に不可欠な職務分掌に関する運用要件を確実に実施するのに役立ちます。

Databricks Data Intelligence Platform は、どのグループまたは個人がどのデータにアクセスできるかを記述するデータアクセス制御方法を提供します。これらは、各個人がアクセスできる各レコードの定義に至るまで、非常に詳細で具体的なポリシーステートメントです。または、すべての金融ユーザーがすべての財務データを表示できるなど、非常に表現力豊かで幅広いものにすることができます。

Unity Catalog は、サポートされているすべてのセキュリティ保護可能なオブジェクト (テーブル、ファイル、モデルなど) のアクセス制御を一元化します。Unity Catalog 内のすべてのセキュリティ保護可能なオブジェクトには所有者がいます。オブジェクトの所有者は、そのオブジェクトに対するすべての特権を持ち、セキュリティ保護可能なオブジェクトに対する特権を他のプリンシパルに付与する権限も持ちます。Unity Catalog では、SQL DDL ステートメントを使用して特権を管理し、アクセス制御を構成できます。

Unity Catalogでは、行フィルターと列マスクを使用して、きめ細かなアクセス制御を行います。行フィルタを使用すると、テーブルにフィルタを適用して、後続のクエリがフィルタ述語が true と評価された行のみを返すようにできます。列マスクを使用すると、テーブル列にマスキング機能を適用できます。マスキング関数はクエリの実行時に評価され、ターゲットカラムへの各参照をマスキング関数の結果に置き換えます。

詳細については、「セキュリティ、コンプライアンス、プライバシー - 最小限の特権を使用して ID とアクセスを管理する」を参照してください。

監査ログの構成

監査ログは、システムの整合性に影響を与える可能性のあるシステムアクティビティ (ユーザーアクション、設定の変更など) の詳細なアカウントを提供するため、重要です。標準のシステムログは、開発者が問題のトラブルシューティングを行うのに役立つように設計されていますが、監査ログは、コンプライアンスやその他のビジネスポリシーの適用目的でアクティビティの履歴記録を提供します。堅牢な監査ログを維持することで、脅威、侵害、詐欺、その他のシステム問題に直面した場合の備えを特定し、確実な準備を確保することができます。

Databricks では、Databricks ユーザーが実行したアクティビティの監査ログにアクセスできるため、組織は詳細な Databricks の使用パターンを監視できます。ログには、ワークスペースレベルのイベントを含むワークスペースレベルの監査ログと、アカウントレベルのイベントを含むアカウントレベルの監査ログの2種類があります。

また、ワークスペースでクエリまたはコマンドが実行されるたびに記録される追加の監査ログである詳細監査ログを有効にすることもできます。

監査データプラットフォームイベント

監査ログは、システムアクティビティの詳細なアカウントを提供するため、重要です。 Data Intelligence Platform には、メタデータアクセス (したがってデータアクセス) とデータ共有の監査ログがあります。

Unity Catalogは、メタストアに対して実行されたアクションの監査ログをキャプチャします。これにより、管理者は、特定のデータセットにアクセスしたユーザーや、そのユーザーが実行したアクションに関する詳細な情報にアクセスできます。
Databricksでは、OpenSharingを使用した安全な共有のために、OpenSharingイベントを監視する監査ログを提供しています。
- 誰かが共有または受信者を作成、変更、更新、または削除したとき。
- 受信者がアクティベーションリンクにアクセスし、資格情報をダウンロードしたとき。
- 受信者が共有または共有テーブルのデータにアクセスするとき。
- 受信者の資格情報がローテーションされたとき、または有効期限が切れたとき。

3. データ品質基準の確立

Databricks Data Intelligence Platform は、品質管理、テスト、モニタリング、および適用が組み込まれた堅牢なデータ品質管理を提供し、ダウンストリームのBI、アナリティクス、機械学習のワークロードで正確で有用なデータを利用できるようにします。

実装の詳細については、「信頼性 - データ品質の管理」を参照してください。

明確なデータ品質基準を定義する

明確で実用的なデータ品質基準を定義することは、分析、レポート作成、意思決定に使用されるデータの信頼性と信頼性を確保するのに役立つため、非常に重要です。これらの標準を文書化することで、標準が確実に支持されます。データ品質基準は、ビジネスの特定のニーズに基づいている必要があり、正確性、完全性、一貫性、適時性、信頼性などのデータ品質の側面に対処する必要があります。

精度: データが実際の値を正確に反映していることを確認します。
完全性:必要なすべてのデータをキャプチャし、重要なデータを欠落しないようにする必要があります。
一貫性: すべてのシステムにわたるデータは一貫性があり、他のデータと矛盾してはなりません。
適時性:データはタイムリーに更新され、利用可能である必要があります。
信頼性: データはソース化され、その信頼性が確保された方法で処理される必要があります。

データのプロファイリング、クレンジング、検証、モニタリングのためのデータ品質ツールの活用

データ品質ツールを活用して、データのプロファイリング、クレンジング、検証、モニタリングを行います。これらのツールは、データレイクで一般的な大規模なデータセット全体でデータ品質イニシアチブをスケーリングするために不可欠な、データ品質の問題を検出して修正するプロセスを自動化するのに役立ちます

Lakeflow Spark宣言型パイプラインを使用しているチームの場合は、期待値を使用してデータセットのコンテンツに対するデータ品質制約を定義します。期待により、テーブルに到着するデータがデータ品質要件を満たしていることを保証し、パイプラインの更新ごとにデータ品質に関する知識を提供できます。

標準化されたデータ形式と定義を実装して適用する

標準化されたデータ形式と定義により、すべてのシステムでデータの一貫した表現が可能になり、データの統合と分析が容易になり、チームや部門間のコミュニケーションとコラボレーションが強化され、意思決定が向上します。また、データ品質を作成および維持するための構造を提供するのにも役立ちます。

組織全体で使用されるすべてのデータ要素の定義、形式、および許容値を含む標準データディクショナリを開発して適用します。

すべてのデータベースとアプリケーションで一貫した命名規則、日付形式、測定単位を使用して、不一致や混乱を防ぎます。

1. データとAI管理の統合​

データとAIのガバナンスプロセスを確立する​

組織向けにUnity Catalogをデザインする​

すべてのデータとAIアセットのメタデータを1か所で管理​

データを追跡し、リネージ AI してデータの可視性を高めます​

メタデータに一貫性のある説明を追加​

データ消費者が簡単にデータディスカバリーを利用できるようにする​

AI資産をデータとともに管理​

2. データとAIのセキュリティを統合​

すべてのデータとAI資産のアクセス制御を一元化​

監査ログの構成​

監査データ プラットフォーム イベント​

3. データ品質基準の確立​

明確なデータ品質基準を定義する​

データのプロファイリング、クレンジング、検証、モニタリングのためのデータ品質ツールの活用​

標準化されたデータ形式と定義を実装して適用する​