メインコンテンツまでスキップ

真実の単一のソースを構築するとはどういう意味ですか?

Databricksレイクハウスは、データアクセスとストレージを単一のシステムに統合し、レイクハウスを信頼できる唯一の情報源(SSOT: single source of truth)として確立することで、複数のシステム間でデータコピーの作成や同期を行う必要性を排除します。 データを複製すると、多くの場合データサイロが発生します。これは、組織内の複数のチームが、同じデータの、品質や鮮度が異なるバージョンを使用して作業している可能性があることを意味します。

レイクハウスはトランザクションとデータアクセスをどのように制御しますか?

Delta Lake のトランザクションは、データファイルと一緒に保存されたログファイルを使用して、テーブルレベルで ACID 保証を提供します。Delta Lake のテーブルをバックアップするデータとログファイルは、クラウドオブジェクトストレージに一緒に保管されます。そのため、ビジネスクリティカルなワークロードにおいても、多くのクエリがパフォーマンス低下やデッドロックにつながるリスクなしに、データの読み取りと書き込みを同時に行うことができます。つまり、企業環境全体のユーザーとアプリケーションは、データの同じ単一コピーに接続して複数のワークロードを実行することができ、すべての閲覧者はクエリ実行時にデータの最新バージョンを受け取ることが保証されます。

本番運用データへのアクセス管理

Unity Catalog は、データスチュワードがユーザー、グループ、サービスプリンシパルに対してきめ細かいアクセス制御を提供できるようにする、一元化されたデータガバナンスソリューションを提供します。Unity Catalog は、アクセス制御リスト(ACL)を使用して権限を管理し、リソースの構成における柔軟性と独自性を実現しています。構成可能な権限には、次のものがあります。

  • 一部のテーブルへの読み取り専用アクセス権。
  • データベースに対するテーブルの作成権限と変更権限。
  • クラウドストレージの特定の場所にあるデータに対する読み取りまたは変更権限。
  • Unity Catalog で管理されるストレージ資格情報を使用した、多くのクラウドリソースへのアクセス権。

詳細については、「Unity Catalogとは」を参照してください。

レイクハウスの景色を活用

Databricks のビューは、レイクハウス内のテーブルに保存されているデータに対する、保存済みのクエリを表します。テーブルを生成するクエリは書き込み時に実行されますが、ビューはビューに対するクエリが実行されるたびに定義ロジックを実行します。そのため、ビューではさまざまなソースからの最新のデータにアクセスでき、コンピュートの消費は結果の更新が必要な場合のみ発生します。

Unity Catalog を使用して、他のデータオブジェクトと一緒にビューを保護および共有することで、個人やチームが組織全体で重要なビジネス上の意思決定を行うロジックを共有することができます。

詳細については、「 ビューとは」を参照してください。

協力者とデータを共有する

Unity Catalog の ACL は企業組織内でデータを共有するための幅広いユースケースに対応していますが、Delta Sharing は、データセットへの読み取り専用アクセスを管理し、どこにいてもコラボレーターと共有できるようにすることで、その範囲をさらに拡張します。Unity Catalog でサポートされるユースケースには次のものが含まれます。

  • それぞれ離れた複数の地域に対する多国籍企業の地域分析にリアルタイムでアクセスできるようにする。
  • 同じ企業グループ内の複数の企業間でデータセットを共有する。
  • 顧客が厳選したデータセットに、サードパーティの消費者が安全にアクセスできるようにする。

Databricksでは、Delta Sharing に Unity Catalogが組み込まれていますが、オープンソース Delta Lakeの一部でもあります。詳細については、「Delta Sharingとは」を参照してください。