データの検出

Databricks は、Databricksデータインテリジェンスプラットフォームを介してアクセスできるデータ資産の検出を簡略化する一連のツールと製品を提供します。 この記事では、ワークスペースでアクセス用に既に構成されているデータを検出してプレビューする方法について、独自の概要について説明します。

このセクションのトピックでは、データ・オブジェクトとデータ・ファイルの探索に焦点を当てます。 ノートブック、SQL クエリー、ライブラリ、モデルなどのアセットの操作に関する情報をお探しの場合は、「 ワークスペースのナビゲーション」を参照してください。

データセットの要約統計の生成に関するガイダンスや、探索的データ分析 (EDA) に関連するその他のタスクについては、「 Databricks での探索的データ分析: ツールと手法」を参照してください。

データ資産を検出する方法

Databricks のデータ検出ツールは、次の一般的なカテゴリに分類されます。

  • AI支援による知見、要約、検索

  • キーワード検索

  • UIを使用したカタログ探索

  • プログラムによるリストとメタデータの探索

データ検出ツールは、Unity Catalogによって管理されるデータ用に最適化されています。 Unity Catalogオブジェクトとして登録されていないデータ資産は、これらの方法の一部を使用して検出できない場合があります。

UIを使用したデータの検索

カタログエクスプローラには、データ資産を探索および管理するためのツールが用意されています。 「カタログエクスプローラ」(Catalog Explorer カタログ アイコン) にアクセスするには、ワークスペースサイドバーの 「カタログ」(Catalog ) を使用します。 「カタログエクスプローラとは」を参照してください。

ノートブックと SQL クエリーエディターには、データベースオブジェクトを探索するためのカタログナビゲーターも用意されています。 これらのインタフェースの [カタログ] アイコンをクリックすると、コード・エディタから離れることなくカタログナビゲーターを展開または折りたたむことができます。

目的のデータセットを見つけたら、 [ 知見 ] タブを使用して、ワークスペースでデータがどのように使用されているかを確認できます。 「頻繁にクエリーとテーブルのユーザーを表示する」を参照してください。

プログラムによるデータの探索

すべてのデータベース オブジェクトで SHOW コマンドを使用して、Unity Catalog に登録されている資産を検出できます。 ファイルを一覧表示するには、 LIST コマンド、 %fs マジック コマンド、または Databricks ユーティリティを使用します。

ストレージの探索とデータ ファイルの検索 」および 「データベース オブジェクトの探索」を参照してください。

データのコメントを確認する

コメントを確認して、レイクハウスで使用可能なデータセットの内容を確認できます。 コメントは、カタログ、スキーマ、テーブル、列などのデータオブジェクトに設定できます。 コメントは、カタログエクスプローラーで表示するか、オブジェクトに対して「 DESCRIBE 」コマンドを使用して表示できます。

Catalog Explorer は、AI が生成したテーブルに対するコメントを提供できるため、データ資産の所有者はデータセットの豊富な概要を簡単に提供できます。 「AI で生成されたコメントを Unity Catalog オブジェクトに追加する」を参照してください。

ユーザーは、オプションで、カタログエクスプローラでレンダリングされるマークダウンを使用して、テーブルやその他のデータベースオブジェクトにコメントを付けることもできます。 「データおよび AI アセットにコメントを追加する」を参照してください。

レイクハウスのテーブルを探す

Databricks の検索バーを使用して、Unity Catalog に登録されているテーブルを検索できます。 キーワード検索を実行するか、セマンティック検索を使用して、検索クエリーに関連するデータセットまたは列を検索できます。 検索では、表示権限のあるテーブルの結果のみが返されます。 検索では、テーブル名、列名、テーブル コメント、および列コメントがレビューされます。 「ワークスペース オブジェクトの検索」を参照してください。