レイクハウスのリファレンスアーキテクチャ (ダウンロード)

この記事では、データソース、インジェスト、変換、クエリと処理、サービング、分析、ストレージに関するレイクハウスのアーキテクチャガイダンスについて説明します。

各リファレンスアーキテクチャは、11 x 17（A3）フォーマットのPDFをダウンロードできます。

Databricks のレイクハウスは、パートナーツールの大規模なエコシステムと統合されるオープンプラットフォームですが、リファレンスアーキテクチャは Google Cloud サービスと Databricks レイクハウスのみに焦点を当てています。示されているクラウドプロバイダーサービスは、概念を説明するために選択されており、すべてを網羅しているわけではありません。

Google Cloud 上の Databricks レイクハウスのリファレンスアーキテクチャ。

ダウンロード: Google Cloud 上の Databricks レイクハウスのリファレンスアーキテクチャ

GCP リファレンスアーキテクチャには、取り込み、保存、配信、分析のための次の GCP 固有のサービスが示されています。

レイクハウスフェデレーションのソースシステムとしてのBigQuery
ストリーミング取り込み用のPub/Subとデータストリーム
Cloud Data Fusion によるバッチ取り込み
データおよびAIアセットのオブジェクトストレージとしてのCloud Storage
運用データベースとしてのCloud Big Table、Cloud SQL、Data Store
BIツールとしてのLooker
Vertex AI は、モデルサービングが外部LLMを呼び出すために使用できます

リファレンス・アーキテクチャの構成

参照アーキテクチャは、 ソース 、 インジェスト 、変換、 クエリ/プロセス 、 サーブ 、分析、 ストレージ のスイムレーンに沿って構成されています。

ソース

外部データをデータインテリジェンスプラットフォームに統合するには、次の3つの方法があります。
- ETL:このプラットフォームは、半構造化データおよび非構造化データ(センサー、IoTデバイス、メディア、ファイル、ログなど)を提供するシステム、およびリレーショナルデータベースやビジネスアプリケーションからの構造化データとの統合を可能にします。
- レイクハウスフェデレーション: SQLリレーショナルデータベースなどのソースは、なしでレイクハウスとUnity Catalog ETLに統合できます。この場合、ソースシステムのデータは Unity Catalog によって管理され、クエリはソースシステムにプッシュダウンされます。
- カタログのフェデレーション:Hive metastore カタログはUnity Catalog 、カタログのフェデレーションを通じてに統合することもでき、Unity Catalog Hive metastoreに格納されたテーブルを制御できます。
インジェスト

バッチまたはストリーミングでレイクハウスにデータを取り込みます。
- Databricks LakeFlow Connect には、エンタープライズアプリケーションやデータベースから取り込むための組み込みコネクタが用意されています。生成されるインジェストパイプラインは Unity Catalog によって管理され、サーバレスコンピュートと LakeFlow 宣言型パイプラインによって駆動されます。
- クラウドストレージに配信されたファイルは、Databricks Auto Loader を使用して直接読み込むことができます。
- エンタープライズアプリケーションから Delta Lakeへのデータのバッチ取り込みの場合、Databricks レイクハウスは、これらのレコードシステム用の特定のアダプターを備えたパートナー取り込みツールに依存しています。
- ストリーミングイベントは、Databricksの構造化ストリーミングを使用して、Kafkaなどのイベントストリーミングシステムから直接取り込むことができます。ストリーミングソースは、センサー、 IoT、またはチェンジデータキャプチャプロセスです。
ストレージ
- データは通常、クラウド上でストレージシステムに保存され、 ETL パイプラインはメダリオンアーキテクチャを使用して、 Delta ファイル/テーブルまたは Iceberg テーブルとしてキュレーションされた方法でデータを格納します。
変換と クエリ/プロセス
- Databricks レイクハウスは、すべての変換とクエリに Apache Spark と Photon のエンジンを使用します。
- LakeFlow 宣言型パイプラインは、信頼性、保守性、およびテスト性に優れたデータ処理パイプラインを簡略化および最適化するための宣言型フレームワークです。
- Apache SparkとPhotonを活用して、Databricksデータインテリジェンスプラットフォームは、 SQLウェアハウスを介したSQLクエリー、ワークスペースのクラスターを通じた、SQL、Python、Scalaワークロードの両方をサポートします。
- データサイエンス(ML モデリングと生成AI)の場合、DatabricksのAI および機械学習プラットフォームは、 AutoML と ML ジョブのコーディングに特化した ML ランタイムを提供します。すべてのデータサイエンスとMLOpsワークフローは、MLflowによって最適にサポートされます。
サービング

データウェアハウジング (DWH) およびBIユースケース向けに、Databricks レイクハウスは、Databricks SQL、SQLウェアハウスを搭載したデータウェアハウス、およびサーバレス SQLウェアハウスを提供しています。
- 機械学習の場合、 Mosaic AI Model Serving は、Databricks コントロールプレーンでホストされるスケーラブルなリアルタイムエンタープライズグレードのモデルサービング機能です。Mosaic AI Gateway はDatabricksサポートされている生成AI モデルとそれに関連するモデルサービングエンドポイントへのアクセスを管理および監視するためのソリューションです。
- 運用データベース: 運用データベースなどの外部システムを使用して、最終データ製品を格納し、ユーザーアプリケーションに配信できます。
- コラボレーション: ビジネスパートナーは、 Delta Sharing を通じて必要なデータに安全にアクセスできます。 Delta Sharing を基盤とする Databricks Marketplace は、データ製品を交換するためのオープンフォーラムです。
分析
- 最終的なビジネスアプリケーションは、このスイムレーンにあります。例としては、 Mosaic AI Model Serving に接続された AI アプリケーションや、リアルタイム推論のための AI アプリケーション、レイクハウスからオペレーショナルデータベースにプッシュされたデータにアクセスするアプリケーションなどのカスタムクライアントがあります。
- BI のユースケースでは、アナリストは通常、データウェアハウスにアクセスするBI ツールを使用します。 SQL 開発者は、 Databricks SQL エディター (図には示されていません) を使用して、クエリとダッシュボードに追加で使用できます。
- Data Intelligence Platform には、データの視覚化を構築し、知見を共有するためのダッシュボードも用意されています。
統合
- Databricks プラットフォームは、ユーザー管理とシングルサインオン (SSO) のための標準 ID プロバイダーと統合されています。
- OpenAI、LangChain、HuggingFace などの外部 AI サービスは、Databricks Intelligence Platform 内から直接使用できます。
- 外部オーケストレーターは、包括的な REST API を使用するか、 Apache Airflow などの外部オーケストレーションツールへの専用コネクタを使用できます。
- Unity Catalogは、Databricks Intelligence PlatformのすべてのデータおよびAIのガバナンスに使用され、レイクハウスフェデレーションを通じて他のデータベースをガバナンスに統合できます。
  
  さらに、Unity Catalog は他のエンタープライズカタログに統合できます。詳細については、エンタープライズカタログベンダーにお問い合わせください。

すべてのワークロードに共通の機能

さらに、Databricksレイクハウスには、すべてのワークロードをサポートする管理機能が付属しています。

データとAIのガバナンス

Databricks Data Intelligence Platform の中心的なデータと AI ガバナンスシステムは、 Unity Catalog です。 Unity Catalog は、すべてのワークスペースに適用され、テーブル、ボリューム、特徴量 (フィーチャストア)、モデル (モデルレジストリ) など、レイクハウスで作成または使用されるすべての資産をサポートするデータアクセスポリシーを 1 か所で管理します。 Unity Catalogは、 Databricksで実行されるクエリ間でランタイムデータリネージをキャプチャするためにも使用できます。

Databricksのレイクハウスモニタリングを使用すると、アカウント内のすべてのテーブルのデータ品質をモニタリングできます。また、機械学習モデルとモデルサービングエンドポイントのパフォーマンスを追跡することもできます。

可観測性のために、システムテーブルは、アカウントの運用データの Databricksホスト型分析ストアです。システムテーブルは、アカウント全体の履歴オブザーバビリティに使用できます。
データインテリジェンスエンジン

Databricks Data Intelligence Platformは、組織全体がデータとAIを使用し、生成AIとレイクハウスの統合の利点を組み合わせて、データのユニークなセマンティクスを理解することができます。「Databricks AI を利用した機能」を参照してください。

この Databricks Assistant は、 Databricks ノートブック、 SQL エディター、ファイルエディターなど、ユーザー向けのコンテキスト対応 AI アシスタントとして使用できます。
オートメーション&オーケストレーション

LakeFlow ジョブは、Databricks Data Intelligence Platform でデータ処理、機械学習、アナリティクスパイプラインを調整します。LakeFlow 宣言型パイプラインを使用すると、宣言型構文を使用して、信頼性と保守性に優れたETLパイプラインを構築できます。このプラットフォームは、CI/CD と MLOps もサポートしています

Google Cloud 上の Data Intelligence Platform のユースケースの概要

を使用したアプリやデータベースからの組み込みSaaSLakeFlow Connect

GCP 上の Databricks での LFC を使用したインジェスト。

ダウンロード:LakeFlow Connect DatabricksonGCP のリファレンスアーキテクチャ。

Databricks LakeFlow Connect には、エンタープライズアプリケーションやデータベースから取り込むための組み込みコネクタが用意されています。生成されるインジェストパイプラインは Unity Catalog によって管理され、サーバレスコンピュートと LakeFlow 宣言型パイプラインによって駆動されます。

LakeFlow Connect は、効率的な増分読み取りと書き込みを活用して、データ取り込みをより速く、スケーラブルで、コスト効率を高めながら、データを最新のままダウンストリームで消費できるようにします。

バッチ取り込みとETL

GCP 上の Databricks でのバッチ ETL のリファレンスアーキテクチャ。

ダウンロード：Databricks on Google CloudのバッチETLリファレンスアーキテクチャ

インジェストツールは、ソース固有のアダプターを使用してソースからデータを読み取り、 Auto Loader 読み取り可能なクラウド上のストレージに格納するか、 Databricks を直接呼び出します (たとえば、パートナーインジェストツールを Databricks レイクハウスに統合します)。データを読み込むために、Databricks ETL と処理エンジンは宣言型パイプラインを介してクエリを実行しますLakeFlow。LakeFlowジョブを使用して単一またはマルチタスクのジョブを調整し、Unity Catalog (アクセス制御、監査、リネージなど) を使用してジョブを管理します。低レイテンシの運用システム用に特定のゴールデンテーブルへのアクセスを提供するには、ETL パイプラインの最後にある RDBMS やキー値ストアなどの運用データベースにテーブルをエクスポートします。

ストリーミング and チェンジデータキャプチャ (CDC)

Spark Databricks on Google Cloudの構造化ストリーミングアーキテクチャ。

ダウンロード：Databricks on Google CloudのSpark構造化ストリーミングアーキテクチャ

Databricks ETL エンジンは、 Spark 構造化ストリーミングを使用して、Apache Kafka や Pub/Sub などのイベントキューから読み取ります。ダウンストリームの手順は、上記のバッチのユースケースのアプローチに従います。

リアルタイムチェンジデータキャプチャ (CDC) は、通常、イベントキューを使用して抽出されたイベントを格納します。そこから、ユースケースはストリーミングのユースケースに従います。

CDCがバッチで実行され、ずクラウドストレージに保存される場合、Databricks Autoloaderはそれらを読み込むことができ、ユースケースはバッチETLに従います。

機械学習と AI (従来型)

Databricks on Google Cloudにおける機械学習とAIのリファレンスアーキテクチャ。

ダウンロード：Databricks on Google Cloudの機械学習およびAIリファレンスアーキテクチャ

機械学習については、Databricks Data Intelligence Platform が Mosaic AI を提供し、最先端の機械学習ライブラリとディープラーニングライブラリが付属しています。Feature StoreとModel Registry (どちらもUnity Catalogに統合)、AutoML付きローコード機能、データサイエンスライフサイクルへのMLflow統合などの機能を提供します。

すべてのデータサイエンス関連のアセット (テーブル、機能、モデル) はUnity Catalogによって管理され、data scientists ジョブLakeFlowを使用してジョブを調整できます。

スケーラブルでエンタープライズグレードの方法でモデルをデプロイするには、 MLOps 機能を使用してモデルをモデルサービングにパブリッシュします。

AIエージェントアプリケーション(生成AI)

生成AI アプリケーション参照アーキテクチャ for Databricks on Google Cloud.

ダウンロード: Gen AI application reference architecture for Databricks on Google Cloud

生成AI ユースケースのために、Mosaic AI には最先端のライブラリと、プロンプトエンジニアリングからAIAIエージェントの構築、既存モデルのファインチューニングまで、特定の Gen 機能が付属しています。上記のアーキテクチャは、ベクトル検索を生成AI エージェントに統合する方法の例を示しています。

スケーラブルでエンタープライズグレードの方法でモデルをデプロイするには、MLOps機能を使用してモデルサービングでモデルを公開します。

BI and SQL アナリティクス

Databricks on Google CloudにおけるBI および SQL アナリティクスリファレンスアーキテクチャ。

ダウンロード：Databricks on Google CloudのBIおよびSQLアナリティクスのリファレンスアーキテクチャ

BI のユースケースでは、ビジネスアナリストはダッシュボード、 Databricks SQL エディター、または Tableau や Looker などの BI ツールを使用できます。どちらの場合も、エンジンは Databricks SQL (サーバレスまたは非サーバレス) であり、 Unity Catalog がデータディスカバリー、探索、およびアクセス制御を提供します。

レイクハウス連合

Databricks on Google Cloudにおけるレイクハウスフェデレーションリファレンスアーキテクチャ。

ダウンロード: Databricks on Google Cloudのレイクハウスフェデレーションリファレンスアーキテクチャ

レイクハウスフェデレーションを使用すると、外部データのSQLデータベース(MySQLやPostgresなど)をDatabricksと統合できます。

最初にデータをオブジェクトストレージにETLする必要がなく、すべてのワークロード (AI、DWH、BI) がこのメリットを享受できます。外部ソースカタログはUnity Catalogにマッピングされ、Databricksプラットフォーム経由のアクセスにきめ細かいアクセス制御を適用できます。

カタログのフェデレーション

Databricks on Google Cloudのカタログ統合参照アーキテクチャ

ダウンロード: Databricks on Google Cloud のカタログ統合参照アーキテクチャ

カタログフェデレーションを使用すると、外部の Hive メタストア (MySQL や Postgres など) を Databricks と統合できます。

すべてのワークロード(AI、DWH、BI)は、最初にデータをオブジェクトストレージにETLしなくても、このメリットを享受できます。外部ソースカタログは、Unity Catalog プラットフォームを介してきめ細かなアクセス制御が適用されるDatabricks に追加されます。

サードパーティのツールとデータを共有する

GCP 上の Databricks のエンタープライズデータ共有リファレンスアーキテクチャ。

ダウンロード: 3rd パーティツールとのデータ共有: Databricks on Google Cloud のリファレンスアーキテクチャ

第三者とのエンタープライズグレードのデータ共有は、 Delta Sharingによって提供されます。これにより、Unity Catalog によって保護されたオブジェクトストア内のデータに直接アクセスできます。この機能は、データ製品を交換するためのオープンフォーラムである Databricks Marketplace でも使用されます。

Databricks から共有データを使用する

Databricks の共有データを GCP 上の Databricks で使用します。

ダウンロード: の参照アーキテクチャから共有データを使用するDatabricksDatabricks on Google Cloud

Delta Sharing Databricks-to-Databricksプロトコルを使用すると、Unity Catalogが有効になっているワークスペースにアクセスできるユーザーであれば、アカウントやクラウドホストに関係なく、任意のDatabricksユーザーとデータを安全に共有できます。

リファレンス・アーキテクチャの構成​

すべてのワークロードに共通の機能​

Google Cloud 上の Data Intelligence Platform のユースケースの概要​

を使用した アプリやデータベースからの組み込みSaaSLakeFlow Connect​

バッチ取り込みとETL​

ストリーミング and チェンジデータキャプチャ (CDC)​

機械学習と AI (従来型)​

AIエージェントアプリケーション(生成AI)​

BI and SQL アナリティクス​

レイクハウス連合​

カタログのフェデレーション​

サードパーティのツールとデータを共有する​

Databricks から共有データを使用する​