レイクハウスでのデータディスカバリーとコラボレーション
Databricks 、レイクハウス上のデータ分析およびAIロードにわたる安全で管理されたコラボレーションを可能にします。 Unity Catalog と Delta Sharing などのオープンプロトコルを使用すると、チームはユースケースや共同作業者全体でガバナンス、監査可能性、プライバシーを維持しながら、大規模なデータを検出、共有、分析できます。
権限を大規模に管理
Unity Catalogは、カタログ、データベース、テーブル、ビューの権限をユーザーグループに割り当てるための一元化されたロケーションを管理者に提供します。特権とメタストアはワークスペース間で共有されるため、管理者がIDプロバイダから同期されたグループに対して安全なアクセス許可を一度設定するだけで、エンドユーザーがDatabricksワークスペース内の適切なデータのみにアクセスできるようになります。
Unity Catalog を使用すると、管理者はストレージ資格情報も定義できます。これは、クラウド ストレージ インフラストラクチャ上で権限を保存および共有するための安全な方法です。これらのセキュリティ保護可能な権限を付与すると、組織内のユーザーがクラウド オブジェクト ストレージの場所に対して外部ロケーションを定義できるようになり、データ エンジニアがクラウド アカウント コンソールで昇格された権限を付与しなくても、新しいワークロードに対してセルフサービスを実行できるようになります。
Databricks でデータを検出する
ユーザーは、 カタログエクスプローラ を使用して Unity Catalog で使用可能なデータ オブジェクトを参照できます。 カタログエクスプローラ は、Unity Catalog 管理者によって構成された特権を使用して、ユーザーがクエリを実行するアクセス許可を持つカタログ、データベース、テーブル、およびビューのみを表示できるようにします。 関心のあるデータセットを見つけたら、フィールドの名前とタイプを確認したり、テーブルや個々のフィールドのコメントを読んだり、データのサンプルをプレビューしたりできます。 また、テーブルの完全な履歴を確認して、データがいつどのように変更されたかを理解することができ、リネージ機能を使用すると、特定のデータセットがアップストリームジョブからどのように派生し、ダウンストリームジョブで使用されるかを追跡できます。
ストレージ資格情報と外部ロケーションもカタログ エクスプローラーに表示され、各ユーザーは利用可能な場所とリソース全体でデータの読み取りと書き込みに必要な権限を確認できます。
レイクハウスで本番運用までの時間を短縮
Databricks 、 SQL 、 Python 、 Scala 、R のワークロードをサポートしており、多様なスキルセットと技術的背景を持つユーザーがそれぞれの知識を活用して分析知見を導き出すことができます。 Databricksでサポートされているすべての言語を使用して本番運用ジョブを定義でき、ノートブックでは言語を組み合わせて使用できます。 これは、ラスト マイルETL用にSQLアナリストによって作成されたクエリを、ほとんど手間をかけずに本番運用データエンジニアリング コードにプロモートできることを意味します。 組織全体のペルソナによって定義されたクエリとワークロードは同じデータセットを使用するため、コードや結果を他のチームと共有する前に、フィールド名を調整したり、ダッシュボードが最新であることを確認したりする必要はありません。コード、ノートブック、クエリ、ダッシュボードを安全に共有できます。これらはすべて、同じスケーラブルなクラウド インフラストラクチャを利用し、同じ厳選されたデータ ソースに対して定義されています。