メインコンテンツまでスキップ

データ品質モニタリング

データ品質モニタリングは、 Unity Catalog内のすべてのデータ資産の品質を保証するのに役立ちます。 データ品質モニタリングには次の機能が含まれます。

  • 異常検出 。異常検出により、ワンクリックでスケーラブルなデータ品質モニタリングが可能になります。 重要なテーブルを優先し、影響の少ないテーブルをスキップするインテリジェント スキャンを使用して、スキーマ内のすべてのテーブルを監視します。Databricks履歴データ パターンを分析して各テーブルの新鮮さと完全性を評価することにより、データ品質を自動的に評価します。
  • データプロファイリング 。データプロファイリングは、テーブル内のデータの概要統計を提供します。 また、モデルの入力と予測を含む推論テーブルをモニタリングすることで、GenAI アプリ、機械学習モデル、モデルサービング エンドポイントのパフォーマンスを追跡するために使用することもできます。

データプロファイリングは、以前はレイクハウスモニタリングとして知られていました。

異常検出を使用する理由は何ですか?

データから有用な知見を引き出すには、データの品質に自信を持たなければなりません。 異常検出は、有効になっているテーブルの 最新性完全性を 監視します。

鮮度 とは、テーブルがどれくらい最近更新されたかを指します。異常検出は、テーブルへのコミットの履歴を分析し、テーブルごとのモデルを構築して、次のコミットの時間を予測します。 コミットが異常に遅い場合、テーブルは古いものとしてマークされます。

完全性 とは、過去 24 時間以内にテーブルに書き込まれると予想される行数を指します。異常検出は、履歴の行数を分析し、このデータに基づいて予想される行数の範囲を予測します。過去 24 時間にコミットされた行数がこの範囲の下限未満の場合、テーブルは不完全としてマークされます。

データプロファイリングを使用する理由

データプロファイリングは、長期にわたるデータの品質と一貫性を追跡および確認するのに役立つ定量的な尺度を提供します。 データプロファイリングは、テーブルのデータ分布または対応するモデルのパフォーマンスの過去のメトリクスをキャプチャし、簡単な要約統計に使用できます。 これらのメトリクスを使用してテーブルを監視し、変更についてアラートを送信できます。

データプロファイリングは、次のような質問に答えるのに役立ちます。

  • データの完全性はどうなっていて、時間とともにどのように変化しているのか。たとえば、現在のデータに含まれるNULL値または0値の割合はどのくらいなのか。また増加しているのか。
  • データの統計的分布はどうなっていて、時間とともにどのように変化しているのか。たとえば、ある数値列の90パーセンタイルはどこにあるのか。カテゴリー列の値の分布はどうなっていて、前日からどう変化しているのか。
  • 現在のデータと既知のベースラインの間、またはデータの経時的変化の中に、ドリフトはあるのか。
  • データのサブセットまたはスライスの統計的分布やドリフトはどうなっているのか。
  • 機械学習モデルの入力および予測は、時間とともにどのように変化しているのか。
  • モデルのパフォーマンスはどのように推移しているのか。モデルバージョンAのパフォーマンスはバージョンBよりも優れているのか。

さらに、データプロファイリングを使用すると、観測の時間粒度を制御し、カスタム メトリクスを設定できます。

データ品質モニタリングは、監視するテーブルを変更 せず 、これらのテーブルにデータを入力するジョブにオーバーヘッドを追加しません。

データ品質モニタリングを始めましょう

異常検出の詳細については、 「異常検出」を参照してください。

データプロファイリングの詳細については、 「データプロファイリング」を参照してください。