メインコンテンツまでスキップ

レイクハウスでのデータディスカバリーとコラボレーション

Databricksは、より広範なデータユーザーが大規模にデータを探索・分析できるようにすることで、組織が知見を得るまでの時間を短縮できるようUnity Catalogを設計しました。Unity Catalogにおいて、データスチュワードはエンドユーザーから成る多様なチームに対しデータアセットへのアクセス権を安全な形で付与することができます。これらのユーザーは、SQLやPythonなどのさまざまな言語やツールを使用して、チーム間で共有可能な派生データセット、モデル、ダッシュボードを作成できます。

権限を大規模に管理

Unity Catalogは、カタログ、データベース、テーブル、ビューの権限をユーザーグループに割り当てるための一元化されたロケーションを管理者に提供します。特権とメタストアはワークスペース間で共有されるため、管理者がIDプロバイダから同期されたグループに対して安全なアクセス許可を一度設定するだけで、エンドユーザーがDatabricksワークスペース内の適切なデータのみにアクセスできるようになります。

Unity Catalogを使用することで、管理者はストレージ資格情報、つまりクラウドストレージインフラストラクチャで権限を安全に保存および共有する方法を定義することもできます。これらのセキュリティ保護可能なリソースに対する権限を組織内のパワーユーザーに付与することで、クラウドオブジェクトの保存場所に対して外部ロケーションを定義できるようにします。これにより、データエンジニアはクラウドアカウントのコンソールで昇格された権限を提供することなく、新しいワークロードをセルフサービスで作業できるようになります。

Databricks でデータを検出する

ユーザーは、 Catalog Explorer を使用して Unity Catalog で使用可能なデータ オブジェクトを参照できます。 Catalog Explorer は、Unity Catalog 管理者によって構成された特権を使用して、ユーザーがクエリを実行するアクセス許可を持つカタログ、データベース、テーブル、およびビューのみを表示できるようにします。 関心のあるデータセットを見つけたら、フィールドの名前とタイプを確認したり、テーブルや個々のフィールドのコメントを読んだり、データのサンプルをプレビューしたりできます。 また、テーブルの完全な履歴を確認して、データがいつどのように変更されたかを理解することができ、リネージ機能を使用すると、特定のデータセットがアップストリームジョブからどのように派生し、ダウンストリームジョブで使用されるかを追跡できます。

ストレージの認証情報と外部ロケーションもカタログエクスプローラーに表示されるため、各ユーザーは、利用可能なロケーションとリソース間でデータを読み書きするための権限を完全に把握できます。

レイクハウスで本番運用までの時間を短縮

DatabricksはSQL、Python、Scala、R内のワークロードをサポートしているため、多様なスキルセットや技術経歴を持つユーザーが、それぞれの知識を活用して分析的な知見を引き出すことができます。Databricksでサポートされているあらゆる言語を使い、本番運用ジョブを定義することができます。ノートブックでは、複数の言語を組み合わせることも可能です。つまり、SQLアナリストがラストマイルETL用に書いたクエリーを、ほとんど手間をかけずに本番運用のデータエンジニアリングコードに昇格できることを意味します。組織全体のペルソナによって定義されたクエリーとワークロードは同じデータセットを利用するため、コードや結果を他のチームと共有する前に、フィールド名を調整したり、ダッシュボードが最新であることを確認したりする必要はありません。コード、ノートブック、クエリー、ダッシュボードを安全に共有することができ、そのすべてが同じスケーラブルなクラウドインフラストラクチャを利用し、収集された同じデータソースに対して定義されます。