レイクハウスでのデータディスカバリーとコラボレーション

Databricksは、より広範なデータユーザーが大規模にデータを検出して分析できるようにすることで、組織が知見を得るまでの時間を短縮できるようUnity Catalogを設計しました。データスチュワードは、Unity Catalog内のエンドユーザーから成る多様なチームにデータアセットへのアクセス権を安全な形で付与することができます。これらのユーザーは、SQLやPythonなどのさまざまな言語やツールを使用して、チーム間で共有可能な派生データセット、モデル、ダッシュボードを作成できます。

権限の大規模な管理

Unity Catalogは、カタログ、データベース、テーブル、ビューの権限をユーザーグループに割り当てるための一元化されたロケーションを管理者に提供します。特権とメタストアはワークスペース間で共有されるため、管理者がIDプロバイダから同期されたグループに対して安全なアクセス許可を一度のみ設定すれば、エンドユーザーがDatabricksワークスペース内の適切なデータのみにアクセスできるようになります。

Unity Catalogを使用することで、管理者はストレージ資格情報、つまりクラウドストレージインフラストラクチャで権限を安全に保存および共有する方法を定義することもできます。これらのセキュリティ保護可能なリソースに対する権限を組織内のパワーユーザーに付与することで、クラウドオブジェクトの保存場所に対して外部ロケーションを定義できるようにします。これにより、データエンジニアはクラウドアカウントのコンソールで昇格された権限を提供することなく、新しいワークロードをセルフサービスで作業できるようになります。

Databricksでデータを検出する

ユーザーは、 カタログ エクスプローラーを使用して、Unity Catalog で使用可能なデータ オブジェクトを参照できます。 カタログ エクスプローラーは、Unity Catalog 管理者によって構成された特権を使用して、ユーザーがクエリーのアクセス許可を持つカタログ、データベース、テーブル、およびビューのみを表示できるようにします。 ユーザーは、関心のあるデータセットを見つけたら、フィールド名とタイプを確認したり、テーブルや個々のフィールドに関するコメントを読んだり、データのサンプルをプレビューしたりできます。 また、ユーザーはテーブルの全履歴を確認して、データがいつ、どのように変更されたかを理解したり、リネージ機能を使用すると、特定のデータセットが上流のジョブからどのように派生し、下流のジョブでどのように使用されたかを追跡できます。

ストレージの認証情報と外部ロケーションもカタログ エクスプローラーに表示されるため、各ユーザーは、使用可能な場所やリソース間でデータを読み書きするために必要な権限を完全に把握できます。

レイクハウスで本番稼働までの時間を短縮する

DatabricksはSQL、Python、Scala、R内のワークロードをサポートしているため、多様なスキルセットや技術経歴を持つユーザーが、それぞれの知識を活用して分析的な知見を引き出すことができます。Databricksでサポートされているあらゆる言語を使い、本番運用ジョブを定義することができます。ノートブックでは、複数の言語を組み合わせた活用方法もあります。つまりこれは、SQLアナリストがラストマイルETL用に書いたクエリーを、ほとんど手間をかけずに本番運用のデータエンジニアリングコードに昇格できることを意味します。組織全体のペルソナによって定義されたクエリーとワークロードは同じデータセットを利用するため、コードや結果を他のチームと共有する前に、フィールド名を調整したり、ダッシュボードが最新であることを確認したりする必要はありません。コード、ノートブック、クエリー、ダッシュボードを安全に共有できます。これらはすべて同じスケーラブルなクラウドインフラストラクチャを利用し、厳選された同等のデータソースに対して定義されています。