Databricks UIを使用してプロファイルを作成する
この記事では、 Databricks UI を使用してデータプロファイリングを作成する方法を示します。 API を使用することもできます。
Databricks UI にアクセスするには、次の手順を実行します。
-
ワークスペースの左側のサイドバーで、
カタログエクスプローラーを開きます。
-
プロファイルするテーブルに移動します。
-
品質 タブをクリックします。
-
このスキーマに対して異常検出が有効になっていない場合は、 [有効にする] をクリックします。

このスキーマに対して異常検出が有効になっている場合は、 [構成] をクリックします。

-
[データ品質モニタリング] ダイアログの [データプロファイリング ] フィールドで、 [構成] をクリックします。

-
ダイアログで、 プロファイル タイプを 選択します。次のセクションでは、プロファイル タイプのオプションと各タイプの追加の選択について説明します。
プロファイリング
「プロファイル タイプ」 ドロップダウン メニューから、作成するプロファイルのタイプを選択します。プロファイルの種類は表に示されています。
プロファイルのタイプ | 説明 |
|---|---|
時系列プロファイル | 時間の経過に伴って測定された値を含む表。このテーブルにはタイムスタンプ列が含まれています。 |
スナップショットプロファイル | 任意の Delta マネージドテーブル、外部テーブル、ビュー、マテリアライズドビュー、またはストリーミングテーブル。 |
推論プロファイル | 機械学習の分類または回帰モデルによって出力された予測値を含むテーブル。このテーブルには、タイムスタンプ、モデル ID、モデル入力 (機能)、モデル予測を含む列、および一意の観測 ID とグラウンド トゥルース ラベルを含むオプションの列が含まれます。また、モデルへの入力としては使用されないが、公平性や偏見の調査やその他のタスクに役立つ可能性のある人口統計情報などのメタデータも含めることができます。 |
TimeSeriesまたはInferenceを選択した場合、追加の疑問が必要になります。これについては、次のセクションで説明します。
- 時系列または推論プロファイルを初めて作成すると、プロファイルでは作成前の 30 日間のデータのみが分析されます。プロファイルが作成されると、すべての新しいデータが処理されます。
- マテリアライズドビューで定義されたモニターは増分処理をサポートしません。
TimeSeriesおよびInferenceプロファイルの場合、テーブルで変更データフィード (CDF) を有効にすることがベスト プラクティスです。 CDF を有効にすると、更新ごとにテーブル全体を再処理するのではなく、新しく追加されたデータのみが処理されます。これにより、多くのテーブルにわたってプロファイリングを拡張する際の実行効率が向上し、コストが削減されます。
TimeSeriesプロフィール
TimeSeriesプロファイルの場合、次の選択を行う必要があります。
- 時間にわたってウィンドウ内のデータを分割する方法を決定する メトリクスの粒度 を指定します。
- タイムスタンプが含まれるテーブル内の列であるタイムスタンプ 列を指定します。タイムスタンプ列のデータ型は、
TIMESTAMPまたはto_timestampPySpark 関数を使用してタイムスタンプに変換できる型である必要があります。
Inferenceプロフィール
Inferenceプロファイルの場合、粒度とタイムスタンプに加えて、次の選択を行う必要があります。
- 問題の種類 として分類または回帰を選択します。
- モデルの予測値を含む列である 予測列 を指定します。
- オプションで、モデル予測の根拠となる真理値を含む ラベル列 を指定します。
- 予測に使用されるモデルの ID を含む列である モデル ID 列 を指定します。
詳細オプション
[詳細オプション] セクションでは、スケジュールの設定、電子メール通知の追加、カスタム メトリクスとスライス式の追加、および一応プロファイル構成の変更を行うことができます。
スケジュール
プロファイルをスケジュールに従って実行するように設定するには、 「スケジュールに従って更新」 を選択し、プロファイルを実行する頻度と時間を選択します。プロファイルを自動的に実行したくない場合は、 「手動で更新」 を選択します。 [手動で更新] を 選択した場合は、後で [品質] タブからメトリクスを更新できます。
通知
プロファイルに E メール通知を設定するには、通知先の E メールを入力し、有効にする通知を選択します。 通知イベント タイプごとに最大 5 つの E メールがサポートされます。
メトリクス
「メトリクス」 セクションでは、次のデフォルト設定を変更できます。
-
メトリクス テーブル スキーマ名 : プロファイルによって作成されたメトリクス テーブルが保存されるUnity Catalogスキーマ。 この場所は {catalog}.{schema} の形式である必要があります。デフォルトでは、プロファイルされたテーブルと同じスキーマの場所に設定されます。別の場所を指定することもできます。
-
Assets directory : データプロファイリング アセットを保存する既存のディレクトリへの絶対パス。 デフォルトでは、アセットはデフォルトのディレクトリ「/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}」に保存されます。このフィールドに別の場所を入力すると、指定したディレクトリの「/{table_name}」の下にアセットが作成されます。このディレクトリはワークスペース内のどこにでも配置できます。組織内で共有することを目的としたプロファイルの場合は、「/Shared/」ディレクトリ内のパスを使用できます。
このフィールドは空白のままにできません。
次の設定を指定することもできます。
- Unity Catalogベースライン テーブル名 : 比較用のベースライン データを含むテーブルまたはビューの名前。
- メトリクス スライス式 : スライス式を使用すると、テーブル全体に加えて、プロファイルするテーブルのサブセットを定義できます。 スライス式を作成するには、 「式の追加」 をクリックし、式の定義を入力します。たとえば、式
"col_2 > 10"は 2 つのスライスを生成します。1 つはcol_2 > 10用、もう 1 つはcol_2 <= 10用です。別の例として、式"col_1"col_1内の一意の値ごとに 1 つのスライスを生成します。データは各式ごとに個別にグループ化され、述語とその補語ごとに個別のスライスが生成されます。 - カスタム メトリクス : カスタム メトリクスは、組み込まれたメトリクスと同様にメトリクス テーブルに表示されます。 カスタム メトリクスを設定するには、 [カスタム メトリクスの追加] をクリックします。
- カスタム メトリクスの 名前 を入力します。
- カスタムの MetriksType を 選択します。
Aggregate、Derived、またはDriftから選択してください。 - 入力列 のドロップダウン リストから、メトリックを適用する列を選択します。
- [出力タイプ] フィールドで、メトリクスのSparkデータ タイプを選択します。
- 定義 フィールドにSQLカスタムメトリクスを定義するコードを入力します。
UIでプロフィール設定を編集する
プロファイルを作成した後、 「品質」 タブの 「構成」を クリックして、プロファイルの設定を変更できます。

ダイアログの 「データプロファイリング」 セクションで、 「構成」 をクリックします。

UI でプロフィールの結果を更新して表示する
プロファイルを手動で実行するには、 [更新履歴の表示] をクリックします。以前のすべてのプロファイルを表示するダイアログが開きます。 「更新メトリクス」 をクリックして、プロファイルの更新をトリガーします。
プロファイル メトリクス テーブルに保存される統計情報については、 「メトリクス テーブルの監視」を参照してください。 メトリクス テーブルはUnity Catalogテーブルです。 ノートブックまたは SQL クエリ エクスプローラーでクエリを実行し、カタログ エクスプローラーで表示できます。
プロファイル出力へのアクセスを制御する
プロファイルによって作成されたメトリック テーブルとダッシュボードは、そのプロファイルを作成したユーザーが所有します。 Unity Catalog権限を使用して、メトリクス テーブルへのアクセスを制御できます。 ワークスペース内でダッシュボードを共有するには、ダッシュボードの右上にある [共有] ボタンをクリックします。
UIからプロファイルを削除する
UI からプロファイルを削除するには、 「UI でプロファイル設定を編集する」の手順に従って、 「プロファイルの更新」 ダイアログを開きます。 [更新] ドロップダウン メニューから、 [削除] を選択します。
