データの検出
Databricks は、Databricksデータインテリジェンスプラットフォームを介してアクセスできるデータ資産の検出を簡略化する一連のツールと製品を提供します。 この記事では、ワークスペースでアクセス用に既に構成されているデータを検出してプレビューする方法について、独自の概要について説明します。
- データソースに接続するには、「 データソースへの接続」を参照してください。
- Databricks Marketplace内のデータへのアクセス方法については、「Databricks Marketplaceとは」を参照してください。
このセクションのトピックでは、データ・オブジェクトとデータ・ファイルの探索に焦点を当てています。 ノートブック、SQL クエリ、ライブラリ、モデルなどのアセットの操作に関する情報をお探しの場合は、「 ワークスペースの移動」を参照してください。
探索的データ分析 (EDA) に関連するデータセットまたはその他のタスクの要約統計の生成に関するガイダンスを求めている場合は、「 Databricks での探索的データ分析: ツールと手法」を参照してください。
データ資産を見つけるにはどうすればいいですか?
Databricks上のデータディスカバリーツールは、次の一般的なカテゴリに分類されます。
- AI支援による知見、要約、検索
- キーワード検索
- UIを使用したカタログ探索
- プログラムによるリストとメタデータの探索
データ検出ツールは、Unity Catalogによって管理されるデータ用に最適化されています。 Unity Catalogオブジェクトとして登録されていないデータ資産は、これらの方法の一部を使用して検出できない場合があります。
UIを使ってデータを検索する
Catalog Explorer は、データ資産を探索および管理するためのツールを提供します。 Catalog Explorer には、ワークスペースのサイドバーにある Catalog を使用してアクセスします。 「カタログエクスプローラとは」を参照してください。
ノートブックと SQL クエリーエディターには、データベースオブジェクトを探索するためのカタログナビゲーターも用意されています。 これらのインタフェースの [カタログ] アイコンをクリックすると、コード・エディタから離れることなくカタログナビゲーターを展開または折りたたむことができます。
関心のあるデータセットを見つけたら、 知見 タブを使用して、ワークスペースでデータがどのように使用されているかを知ることができます。 テーブルの頻繁なクエリとユーザーを表示するを参照してください。
プログラムによるデータの探索
すべてのデータベース オブジェクトに対して SHOW
コマンドを使用して、Unity Catalog に登録されているアセットを検出できます。 LIST
コマンド、%fs
マジック コマンド、または Databricks ユーティリティを使用して、ファイルを一覧表示します。
ストレージの探索とデータ・ファイルの検索およびデータベース・オブジェクトの探索を参照してください。
データコメントを確認する
コメントを確認して、レイクハウスで使用可能なデータセットの内容を確認できます。 コメントは、カタログ、スキーマ、テーブル、列などのデータオブジェクトに設定できます。 コメントは、カタログエクスプローラーで表示するか、オブジェクトに対して「 DESCRIBE
」コマンドを使用して表示できます。
Catalog Explorer は、AI が生成したテーブルに対するコメントを提供できるため、データ資産の所有者はデータセットの豊富な概要を簡単に提供できます。 「AI で生成されたコメントを Unity Catalog オブジェクトに追加する」を参照してください。
ユーザーは、カタログエクスプローラーでレンダリングされるマークダウンを使用して、オプションでテーブルやその他のデータベースオブジェクトにコメントを付けることもできます。 「データ資産と AI 資産にコメントを追加する」を参照してください。
レイクハウスのテーブルを探す
Databricks の検索バーを使用して、Unity Catalog に登録されているテーブルを検索できます。 キーワード検索を実行するか、セマンティック検索を使用して、検索クエリに関連するデータセットまたは列を見つけることができます。 検索では、表示権限のあるテーブルの結果のみが返されます。 検索レビューのテーブル名、列名、テーブル コメント、および列コメント。 ワークスペースオブジェクトの検索を参照してください。