データの検出
Databricks は、Databricksデータインテリジェンスプラットフォームを介してアクセスできるデータ資産の検出を簡略化する一連のツールと製品を提供します。 この記事では、ワークスペースでアクセス用に既に構成されているデータを検出してプレビューする方法について、独自の概要について説明します。
データソースに接続するには、「データソースへの接続」を参照してください。
Databricks Marketplaceのデータへのアクセスについては、「Databricks Marketplaceとは」を参照してください。
このセクションのトピックでは、データ・オブジェクトとデータ・ファイルの探索に焦点を当てます。 ノートブック、SQL クエリー、ライブラリ、モデルなどのアセットの操作に関する情報をお探しの場合は、「 ワークスペースのナビゲーション」を参照してください。
データセットの要約統計の生成に関するガイダンスや、探索的データ分析 (EDA) に関連するその他のタスクについては、「 Databricks での探索的データ分析: ツールと手法」を参照してください。
データ資産を検出する方法
Databricks のデータ検出ツールは、次の一般的なカテゴリに分類されます。
AI支援による知見、要約、検索
キーワード検索
UIを使用したカタログ探索
プログラムによるリストとメタデータの探索
データ検出ツールは、Unity Catalogによって管理されるデータ用に最適化されています。 Unity Catalogオブジェクトとして登録されていないデータ資産は、これらの方法の一部を使用して検出できない場合があります。
UIを使用したデータの検索
カタログエクスプローラには、データ資産を探索および管理するためのツールが用意されています。 「カタログエクスプローラ」(Catalog Explorer ) にアクセスするには、ワークスペースサイドバーの 「カタログ」(Catalog ) を使用します。 「カタログエクスプローラとは」を参照してください。
ノートブックと SQL クエリーエディターには、データベースオブジェクトを探索するためのカタログナビゲーターも用意されています。 これらのインタフェースの [カタログ] アイコンをクリックすると、コード・エディタから離れることなくカタログナビゲーターを展開または折りたたむことができます。
目的のデータセットを見つけたら、 [ 知見 ] タブを使用して、ワークスペースでデータがどのように使用されているかを確認できます。 「頻繁にクエリーとテーブルのユーザーを表示する」を参照してください。
プログラムによるデータの探索
すべてのデータベース オブジェクトで SHOW
コマンドを使用して、Unity Catalog に登録されている資産を検出できます。 ファイルを一覧表示するには、 LIST
コマンド、 %fs
マジック コマンド、または Databricks ユーティリティを使用します。
「 ストレージの探索とデータ ファイルの検索 」および 「データベース オブジェクトの探索」を参照してください。
データのコメントを確認する
コメントを確認して、レイクハウスで使用可能なデータセットの内容を確認できます。 コメントは、カタログ、スキーマ、テーブル、列などのデータオブジェクトに設定できます。 コメントは、カタログエクスプローラーで表示するか、オブジェクトに対して「 DESCRIBE
」コマンドを使用して表示できます。
Catalog Explorer は、AI が生成したテーブルに対するコメントを提供できるため、データ資産の所有者はデータセットの豊富な概要を簡単に提供できます。 「AI で生成されたコメントを Unity Catalog オブジェクトに追加する」を参照してください。
ユーザーは、オプションで、カタログエクスプローラでレンダリングされるマークダウンを使用して、テーブルやその他のデータベースオブジェクトにコメントを付けることもできます。 「データおよび AI アセットにコメントを追加する」を参照してください。
レイクハウスのテーブルを探す
Databricks の検索バーを使用して、Unity Catalog に登録されているテーブルを検索できます。 キーワード検索を実行するか、セマンティック検索を使用して、検索クエリーに関連するデータセットまたは列を検索できます。 検索では、表示権限のあるテーブルの結果のみが返されます。 検索では、テーブル名、列名、テーブル コメント、および列コメントがレビューされます。 「ワークスペース オブジェクトの検索」を参照してください。