データの検出
Databricks は、Databricksデータインテリジェンスプラットフォームを介してアクセスできるデータ資産の検出を簡略化する一連のツールと製品を提供します。 この記事では、ワークスペースでアクセス用に既に構成されているデータを検出してプレビューする方法について、独自の概要について説明します。
- データソースに接続するには、「 データソースと外部サービスへの接続」を参照してください。
- Databricks Marketplace内のデータへのアクセス方法については、「Databricks Marketplaceとは」を参照してください。
このセクションのトピックでは、データ・オブジェクトとデータ・ファイルの探索に焦点を当てています。ノートブック、SQL クエリ、ライブラリ、モデルなどのアセットの操作に関する情報をお探しの場合は、「 ワークスペース UI」を参照してください。
探索的データ分析 (EDA) に関連するデータセットまたはその他のタスクの要約統計の生成に関するガイダンスを求めている場合は、「 Databricks での探索的データ分析: ツールと手法」を参照してください。
データ資産を見つけるにはどうすればいいですか?
Databricks上のデータディスカバリーツールは、次の一般的なカテゴリに分類されます。
- AI支援による知見、要約、検索
- キーワード検索
- UIを使用したカタログ探索
- プログラムによるリストとメタデータの探索
データ検出ツールは、Unity Catalogによって管理されるデータ用に最適化されています。 Unity Catalogオブジェクトとして登録されていないデータ資産は、これらの方法の一部を使用して検出できない場合があります。
UIを使ってデータを検索する
- Genie :共有されているアセットを閲覧したり、名前で検索したり、自然言語でデータに関する質問をしたり、ドメインでフィルタリングしたりできます。Genieインターフェースの使用方法を参照してください。
- 発見ページ :ドメイン別に整理されたデータ資産を探索できる、厳選された閲覧体験。キュレーターは組織にとって重要な資産をハイライト表示でき、消費者はドメインや資産の種類別に閲覧できる。「発見」ページとドメインをご覧ください。
- カタログエクスプローラー :データ資産の探索と管理のためのツールを提供します。カタログエクスプローラーにアクセス
ワークスペースのサイドバーにある カタログ 。 [知識] タブを使用して、ワークスペースでデータがどのように使用されているかを確認します。 「カタログエクスプローラーとは?」を参照してください。テーブルの頻繁なクエリとユーザーを表示します。
- ノートブックとSQLエディタ :データベースオブジェクトを探索するためのカタログナビゲーターも提供します。エディタのサイドバーにある カタログ アイコンをクリックすると、コードエディタを離れることなくカタログナビゲーターを展開または折りたたむことができます。
プログラムによるデータの探索
すべてのデータベース オブジェクトに対して SHOW コマンドを使用して、Unity Catalog に登録されているアセットを検出できます。 LIST コマンド、%fs マジック コマンド、または Databricks ユーティリティを使用して、ファイルを一覧表示します。
ストレージの探索とデータ・ファイルの検索およびデータベース・オブジェクトの探索を参照してください。
データコメントを確認する
コメントを確認して、レイクハウスで使用可能なデータセットの内容を確認できます。 コメントは、カタログ、スキーマ、テーブル、列などのデータオブジェクトに設定できます。 コメントは、カタログエクスプローラーで表示するか、オブジェクトに対して「 DESCRIBE 」コマンドを使用して表示できます。
カタログエクスプローラ は、AI が生成したテーブルに対するコメントを提供できるため、データ資産の所有者はデータセットの豊富な概要を簡単に提供できます。 「AI で生成されたコメントを Unity Catalog オブジェクトに追加する」を参照してください。
ユーザーは、カタログエクスプローラーでレンダリングされるマークダウンを使用して、オプションでテーブルやその他のデータベースオブジェクトにコメントを付けることもできます。 「データ資産と AI 資産にコメントを追加する」を参照してください。
レイクハウスのテーブルを探す
Databricks の検索バーを使用して、Unity Catalog に登録されているテーブルを検索できます。 キーワード検索を実行するか、セマンティック検索を使用して、検索クエリに関連するデータセットまたは列を見つけることができます。 検索では、表示権限のあるテーブルの結果のみが返されます。 検索レビューのテーブル名、列名、テーブル コメント、および列コメント。 ワークスペースオブジェクトの検索を参照してください。