データの検出

Databricks は、Databricksデータインテリジェンスプラットフォームを介してアクセスできるデータ資産の検出を簡略化する一連のツールと製品を提供します。 この記事では、ワークスペースでアクセス用に既に構成されているデータを検出してプレビューする方法について、独自の概要について説明します。

このセクションのトピックでは、データ・オブジェクトとデータ・ファイルの探索に焦点を当てます。 ノートブック、SQL クエリー、ライブラリ、モデルなどのアセットの操作に関する情報をお探しの場合は、「 ワークスペースのナビゲーション」を参照してください。

データセットの要約統計の生成に関するガイダンスや、探索的データ分析 (EDA) に関連するその他のタスクについては、「 Databricks での探索的データ分析: ツールと手法」を参照してください。

データ資産を検出する方法

Databricks のデータ検出ツールは、次の一般的なカテゴリに分類されます。

  • AI支援による知見、要約、検索。

  • キーワード検索。

  • UI を使用したカタログ探索。

  • プログラムによるリストとメタデータの探索。

データディスカバリー ツールは、Unity Catalog によって管理されるデータ用に最適化されています。 Unity Catalog オブジェクトとして登録されていないデータ資産は、これらの方法の一部を使用して検出できない場合があります。

UI を使用したデータの検索

カタログエクスプローラには、データ資産を探索および管理するためのツールが用意されています。 「カタログエクスプローラ」(Catalog Explorer カタログ アイコン) にアクセスするには、ワークスペースサイドバーの 「カタログ」(Catalog ) を使用します。 「カタログエクスプローラとは」を参照してください。

ノートブックと SQL クエリーエディターには、データベースオブジェクトを探索するためのカタログナビゲーターも用意されています。 これらのインタフェースの「カタログ」アイコンをクリックすると、コード・エディタから離れることなく カタログ ・ナビゲータを展開または折りたたむことができます。

目的のデータセットを見つけたら、 [ 知見 ] タブを使用して、ワークスペースでデータがどのように使用されているかを確認できます。 「頻繁にクエリーとテーブルのユーザーを表示する」を参照してください。

プログラムによるデータの探索

すべてのデータベース オブジェクトで SHOW コマンドを使用して、Unity Catalog に登録されている資産を検出できます。 ファイルを一覧表示するには、 LIST コマンド、 %fs マジック コマンド、または Databricks ユーティリティを使用します。

ストレージの探索とデータ ファイルの検索 」および 「データベース オブジェクトの探索」を参照してください。

データのコメントを確認する

コメントを確認して、レイクハウスで使用可能なデータセットの内容を確認できます。 コメントは、カタログ、スキーマ、テーブル、列などのデータオブジェクトに設定できます。 コメントは、カタログエクスプローラーで表示するか、オブジェクトに対して「 DESCRIBE 」() コマンドを使用して表示できます。

カタログエクスプローラでは、AIが生成したコメントをテーブルに提供できるため、データアセットの所有者はデータセットの豊富な概要を簡単に提供できます。 AIが生成したコメントを表に追加するを参照してください。

ユーザーは、オプションで、カタログエクスプローラでレンダリングされるマークダウンを使用して、テーブルやその他のデータベースオブジェクトにコメントを付けることもできます。 「カタログエクスプローラでマークダウンコメントを使用してデータをドキュメント化する」を参照してください。

レイクハウスのテーブルを探す

Databricks の検索バーを使用して、Unity Catalog に登録されているテーブルを検索できます。 キーワード検索を実行するか、セマンティック検索を使用して、検索クエリーに関連するデータセットまたは列を検索できます。 検索では、表示権限のあるテーブルの結果のみが返されます。 検索では、テーブル名、列名、テーブル コメント、および列コメントがレビューされます。 「ワークスペース オブジェクトの検索」を参照してください。