メインコンテンツまでスキップ

データとAIガバナンスのベストプラクティス

この記事では 、データと AI ガバナンス のベスト プラクティスを、次のセクションに示すアーキテクチャ原則別に整理して説明します。

1. データとAI管理の統合

データとAIのガバナンスプロセスを確立する

データと AI ガバナンスとは、組織のデータと AI 資産の可用性、使いやすさ、整合性、セキュリティの管理です。 データと AI のガバナンスを強化することで、組織は正確なアナリティクスと意思決定に不可欠な資産の品質を確保し、新たな機会を特定し、顧客満足度を向上させ、最終的には収益を増やすことができます。 これは、組織がデータとAIのプライバシー規制に準拠し、セキュリティ対策を改善し、データ侵害や罰則のリスクを軽減するのに役立ちます。 また、効果的なデータと AI のガバナンスにより、冗長性が排除され、データマネジメントが合理化されるため、コスト削減と運用効率の向上につながります。

組織は、どのガバナンス モデルが自社に最も適しているかを選択したい場合があります。

  • 一元化された ガバナンス モデル では、ガバナンス管理者はメタストアの所有者であり、任意のオブジェクトの所有権を取得し、アクセス許可を付与および取り消すことができます。
  • 分散ガバナンス・モデル では、カタログまたはカタログのセットがデータ・ドメインです。そのカタログの所有者は、すべてのアセットを作成して所有し、そのドメイン内のガバナンスを管理できます。 特定のドメインの所有者は、他のドメインの所有者とは独立して操作できます。

データおよびAIガバナンスソリューションの Unity Catalog は、Databricks Data Intelligence Platformに統合されています。 両方のガバナンスモデルをサポートし、あらゆるクラウドやプラットフォーム上の構造化データと非構造化データ、MLモデル、ノートブック、ダッシュボード、ファイルをシームレスに管理するのに役立ちます。 Unity Catalog のベストプラクティスは、データと AI のガバナンスを実装するのに役立ちます。

すべてのデータとAIアセットのメタデータを1か所で管理

すべてのアセットのメタデータを 1 か所で管理する利点は、すべてのデータの信頼できる唯一のソースを維持する利点と似ています。 これには、データの冗長性の削減、データの完全性の向上、定義や分類法の違いによる誤解の排除が含まれます。 また、グローバルなポリシー、標準、ルールを 1 つのソースで実装することも容易になります。

ベスト プラクティスとして、レイクハウスは Unity Catalog を使用して 1 つのアカウントで実行します。 Unity Catalogでは、データやボリューム(任意のファイル)はもちろん、特徴量やAIモデルなどのAIアセットも管理できます。 Unity Catalog内のオブジェクトの最上位のコンテナーはメタストアです。データ資産 (テーブルやビューなど) と、それらへのアクセスを制御するアクセス許可が格納されます。 クラウド リージョンごとに 1 つのメタストアを使用し、リージョン間でメタストアにアクセスしないようにして、待機時間の問題を回避します。

メタストアは、データ、ボリューム、AI アセットを構造化するための 3 つのレベルの名前空間を提供します。

Databricks では、カタログを使用して組織の情報アーキテクチャ全体を分離することをお勧めします。 多くの場合、これは、カタログがソフトウェア開発環境のスコープ、チーム、またはビジネスユニットに対応できることを意味します。

データを追跡し、リネージ AI してデータの可視性を高めます

データリネージは、データリーダーが組織内のデータの可視性と理解を高めるのに役立つ強力なツールです。 データリネージは、ソースから知見へのデータの変換と改良について説明しています。 これには、データセットのソース、データの作成に使用された他のデータセット、誰がいつ作成したか、実行された変換、それを使用する他のデータセット、その他多くのイベントと属性など、ライフサイクル全体を通じてデータに関連付けられたすべての関連メタデータとイベントのキャプチャが含まれます。

さらに、 Unity Catalogのテーブルでモデルをトレーニングすると、 モデルのリネージを、 トレーニングおよび評価されたアップストリームデータセットまで追跡できます。

リネージは、データ関連の多くのユースケースに使用できます。

  • コンプライアンスと監査の準備: データリネージは、組織がテーブルとフィールドのソースをトレースするのに役立ちます。 これは、EU 一般データ保護規則 (GDPR)、カリフォルニア州消費者プライバシー法 (CCPA)、医療保険の相互運用性と説明責任に関する法律 (HIPPA)、バーゼル銀行監督委員会 (BCBS) 239、サーベンス オクスリー法 (SOX) など、多くのコンプライアンス規制の要件を満たすために重要です。
  • 影響分析/変更管理 : データは、ソースから最終的なビジネス対応テーブルまで、複数の変換を受けます。 データの変更がダウンストリームのユーザーに対する潜在的な影響を理解することは、リスク管理の観点から重要になります。 この影響は、 Unity Catalogによってキャプチャされたデータリネージを使用して簡単に決定できます。
  • データ品質保証 :データセットがどこから来て、どのような変換が適用されたかを理解することで、 data scientists とアナリストにとってはるかに優れたコンテキストが提供され、より適切で正確な知見を得ることができます。
  • デバッグと診断 : 予期しない結果が発生した場合、データリネージは、エラーをソースまでさかのぼって追跡することにより、データ チームが根本原因分析を実行できるようにします。 これにより、トラブルシューティングの時間が大幅に短縮されます。

Unity Catalogは、 で実行されているクエリ間でランタイムデータリネージ をキャプチャし、Databricks モデルリネージ もキャプチャします。リネージはすべての言語でサポートされており、列レベルまでキャプチャされます。 リネージデータには、クエリに関連するノートブック、ジョブ、ダッシュボードが含まれます。 リネージは、 カタログエクスプローラー でほぼリアルタイムで視覚化でき、 Databricks「 データリネージ REST API」を使用してアクセスできます。

メタデータに一貫性のある説明を追加

説明は、データに不可欠なコンテキストを提供します。 これらは、ユーザーがデータ テーブルと列の目的と内容を理解するのに役立ちます。 この明確さにより、必要なデータをより簡単に検出、特定、フィルタリングできるようになり、これは効果的なデータ分析と意思決定に不可欠です。 説明には、データの機密性とコンプライアンス情報を含めることができます。 これにより、組織はデータのプライバシーとセキュリティに関する法的および規制上の要件を満たすことができます。 説明には、データのソース、正確性、関連性に関する情報も含める必要があります。 これにより、データの完全性が確保され、チーム間のコラボレーションが向上します。

Unity Catalog の 2 つの主要な機能は、テーブルと列の記述をサポートしています。 Unity Catalogは、

  • コメントの形式でテーブルと列 にコメントを追加します

    また、Unity Catalog によって管理される任意のテーブルまたはテーブル列に AI 生成のコメント を追加して、プロセスを高速化することもできます。 ただし、AIモデルは常に正確であるとは限らず、コメントを保存する前に確認する必要があります。 Databricks では、AI が生成したコメントを人間がレビューして不正確さをチェックすることを強くお勧めします。

  • Unity Catalog 内の任意のセキュリティ保護可能なリソースに タグを追加します 。タグは、Unity Catalog のさまざまなセキュリティ保護可能なオブジェクトに適用できるキーと省略可能な値を持つ属性です。 タグ付けは、メタストア内のさまざまなセキュリティ保護可能なオブジェクトを整理および分類する場合に便利です。 また、タグを使用すると、データ資産の検索と検出が容易になります。

データ消費者が簡単にデータディスカバリーを利用できるようにする

Easy データディスカバリーを使用すると、データサイエンティスト、データアナリスト、データエンジニアは、関連するデータをすばやく見つけて参照し、価値実現までの時間を短縮できます。

DatabricksCatalog Explorer は、データ、スキーマ (データベース)、テーブル、権限、データ所有者、外部ロケーション、および認証情報を探索および管理するためのユーザー インターフェイスを提供します。また、Catalog Explorer の [知見] タブを使用して、に登録されている任意のテーブルで最も 頻繁に使用される最近のクエリ Unity Catalogとユーザーを表示できます。

AI資産をデータとともに管理

データガバナンスと人工知能(AI)の関係は、成功にとって重要になっています。 組織がデータをどのように管理、保護、使用するかは、AI実装の結果と考慮事項に直接影響します。つまり、高品質のデータがなければAIはあり得ず、データガバナンスがなければ高品質のデータを持つことはできません。

データとAIを一緒に管理することで、高品質で最新のデータへのシームレスなアクセスを確保することでAIのパフォーマンスが向上し、精度の向上と意思決定の向上につながります。 サイロ化を解消することで、コラボレーションの改善とワークフローの合理化が可能になり、効率が向上し、生産性の向上とコストの削減につながります。

また、統一されたガバナンスアプローチにより、一貫したデータ処理方法が確立され、脆弱性が軽減され、組織が機密情報を保護する能力が向上するため、データセキュリティの向上もメリットとなります。 データと AI ガバナンスが統合されている場合、データ処理と AI プロセスが規制要件に準拠しているため、データプライバシー規制へのコンプライアンスを維持しやすくなります。

全体として、統一されたガバナンス アプローチは、データと AI の両方に対して明確なポリシーと手順を確立することで、利害関係者間の信頼を育み、AI の意思決定プロセスの透明性を確保します。

Databricks Data Intelligence Platform では、Unity Catalog はデータと AI アセットの両方を管理するための中心的なコンポーネントです。

  • Unity Catalog の機能

    Unity Catalog対応ワークスペースでは、data scientists Unity Catalogで特徴量テーブルを作成できます。これらの特徴量テーブルは、 によって管理されるDelta テーブル またはDLTUnity Catalog です。

  • Unity Catalog上のモデル

    Unity Catalog のモデルは、一元化されたアクセス制御、監査、リネージ、ワークスペース間でのモデル検出など、Unity Catalog の利点を ML モデルに拡張します。 Unity Catalogのモデルの主な特徴は、モデルのガバナンス、時系列モデルのリネージ、モデルのバージョニング、エイリアスによるモデルのデプロイなどです。

2. データとAIのセキュリティを統合

すべてのデータとAI資産のアクセス制御を一元化

すべてのデータ資産のアクセス制御を一元化することは、データと AI 資産のアクセスを一元的に管理および監査する場所を提供することで、これらの資産のセキュリティとガバナンスを簡素化するため、重要です。 このアプローチは、データとAIオブジェクトへのアクセスをより効率的に管理し、規制コンプライアンスとリスク回避に不可欠な職務分掌に関する運用要件を確実に実施するのに役立ちます。

Databricks Data Intelligence Platform は、どのグループまたは個人がどのデータにアクセスできるかを記述するデータアクセス制御方法を提供します。 これらは、各個人がアクセスできる各レコードの定義に至るまで、非常に詳細で具体的なポリシーステートメントです。 または、すべての金融ユーザーがすべての財務データを表示できるなど、非常に表現力豊かで幅広いものにすることができます。

Unity Catalog は、 サポートされているすべてのセキュリティ保護可能なオブジェクト (テーブル、ファイル、モデルなど) のアクセス制御を一元化します。 Unity Catalog 内のすべてのセキュリティ保護可能なオブジェクトには所有者がいます。 オブジェクトの所有者は、そのオブジェクトに対するすべての特権を持ち、セキュリティ保護可能なオブジェクトに対する特権を他のプリンシパルに付与する権限も持ちます。 Unity Catalog では、 特権を管理し、SQL DDL ステートメントを使用して アクセス制御を構成できます

Unity Catalogでは、行フィルターと列マスクを使用して、きめ細かなアクセス制御を行います。行フィルタを使用すると、テーブルにフィルタを適用して、後続のクエリがフィルタ述語が true と評価された行のみを返すようにできます。 列マスクを使用すると、テーブル列にマスキング機能を適用できます。 マスキング関数はクエリの実行時に評価され、ターゲットカラムへの各参照をマスキング関数の結果に置き換えます。

詳細については 、「セキュリティ、コンプライアンス、プライバシー - 最小限の特権を使用して ID とアクセスを管理する」を参照してください。

監査ログの構成

監査ログは、システムの整合性に影響を与える可能性のあるシステムアクティビティ (ユーザーアクション、設定の変更など) の詳細なアカウントを提供するため、重要です。 標準のシステムログは、開発者が問題のトラブルシューティングを行うのに役立つように設計されていますが、監査ログは、コンプライアンスやその他のビジネスポリシーの適用目的でアクティビティの履歴記録を提供します。 堅牢な監査ログを維持することで、脅威、侵害、詐欺、その他のシステム問題に直面した場合の備えを特定し、確実な準備を確保することができます。

Databricks では、Databricks ユーザーが実行したアクティビティの 監査ログ にアクセスできるため、組織は詳細な Databricks の使用パターンを監視できます。 ログには、ワークスペースレベルのイベントを含むワークスペースレベルの監査ログと、アカウントレベルのイベントを含むアカウントレベルの監査ログの2種類があります。

また、ワークスペースでクエリまたはコマンドが実行されるたびに記録される追加の監査ログである 詳細監査ログを有効にする こともできます。

監査データ プラットフォーム イベント

監査ログは、システムアクティビティの詳細なアカウントを提供するため、重要です。 Data Intelligence Platform には、メタデータ アクセス (したがってデータ アクセス) とデータ共有の監査ログがあります。

  • Unity Catalog は、 メタストアに対して実行されたアクションの監査ログをキャプチャします。 これにより、管理者は、特定のデータセットにアクセスしたユーザーや、そのユーザーが実行したアクションに関する詳細な情報にアクセスできます。
  • Delta Sharing との安全な共有のために、Databricks では、次のような Delta Sharing イベントを監視するための監査ログを提供しています。
    • 誰かが共有または受信者を作成、変更、更新、または削除したとき。
    • 受信者がアクティベーション リンクにアクセスし、資格情報をダウンロードしたとき。
    • 受信者が共有または共有テーブルのデータにアクセスするとき。
    • 受信者の資格情報がローテーションされたとき、または有効期限が切れたとき。

3. データ品質基準の確立

Databricks Data Intelligence Platform は、品質管理、テスト、モニタリング、および適用が組み込まれた堅牢なデータ品質管理を提供し、ダウンストリームのBI、アナリティクス、機械学習のワークロードで正確で有用なデータを利用できるようにします。

実装の詳細については、「 信頼性 - データ品質の管理」を参照してください。

明確なデータ品質基準を定義する

明確で実用的なデータ品質基準を定義することは、分析、レポート作成、意思決定に使用されるデータの信頼性と信頼性を確保するのに役立つため、非常に重要です。 これらの標準を文書化することで、標準が確実に支持されます。 データ品質基準は、ビジネスの特定のニーズに基づいている必要があり、正確性、完全性、一貫性、適時性、信頼性などのデータ品質の側面に対処する必要があります。

  • 精度: データが実際の値を正確に反映していることを確認します。
  • 完全性:必要なすべてのデータをキャプチャし、重要なデータを欠落しないようにする必要があります。
  • 一貫性: すべてのシステムにわたるデータは一貫性があり、他のデータと矛盾してはなりません。
  • 適時性:データはタイムリーに更新され、利用可能である必要があります。
  • 信頼性: データはソース化され、その信頼性が確保された方法で処理される必要があります。

データ品質ツールを使用して、データのプロファイリング、クレンジング、検証、モニタリングを行います

データ品質ツールを活用して、データのプロファイリング、クレンジング、検証、モニタリングを行います。 これらのツールは、データレイクで一般的な大規模なデータセット全体でデータ品質イニシアチブをスケーリングするために不可欠な、データ品質の問題を検出して修正するプロセスを自動化するのに役立ちます

DLT を使用するチームの場合、 期待値 を使用して、データセットのコンテンツに対するデータ品質の制約を定義できます。 期待値を使用すると、テーブルに到着するデータがデータ品質要件を満たしていることを保証し、各パイプライン更新のデータ品質に関する知見を提供できます。

標準化されたデータ形式と定義を実装して適用する

標準化されたデータ形式と定義により、すべてのシステムでデータの一貫した表現が可能になり、データの統合と分析が容易になり、チームや部門間のコミュニケーションとコラボレーションが強化され、意思決定が向上します。 また、データ品質を作成および維持するための構造を提供するのにも役立ちます。

組織全体で使用されるすべてのデータ要素の定義、形式、および許容値を含む標準データディクショナリを開発して適用します。

すべてのデータベースとアプリケーションで一貫した命名規則、日付形式、測定単位を使用して、不一致や混乱を防ぎます。