メインコンテンツまでスキップ

レイクハウスのリファレンスアーキテクチャ (ダウンロード)

この記事では、データソース、インジェスト、変換、クエリと処理、サービング、分析、ストレージに関するレイクハウスのアーキテクチャ ガイダンスについて説明します。

各リファレンスアーキテクチャは、11 x 17(A3)フォーマットのPDFをダウンロードできます。

Databricks のレイクハウスは、 パートナー ツールの大規模なエコシステムと統合されるオープン プラットフォームですが、リファレンス アーキテクチャは Google Cloud サービスと Databricks レイクハウスのみに焦点を当てています。 示されているクラウド プロバイダー サービスは、概念を説明するために選択されており、すべてを網羅しているわけではありません。

Google Cloud 上の Databricks レイクハウスのリファレンス アーキテクチャ。

ダウンロード: Google Cloud 上の Databricks レイクハウスのリファレンス アーキテクチャ

GCP リファレンス アーキテクチャには、取り込み、保存、配信、分析のための次の GCP 固有のサービスが示されています。

  • レイクハウスフェデレーションのソースシステムとしてのBigQuery
  • ストリーミング取り込み用のPub/Subとデータストリーム
  • Cloud Data Fusion によるバッチ取り込み
  • データおよびAIアセットのオブジェクトストレージとしてのCloud Storage
  • 運用データベースとしてのCloud Big Table、Cloud SQL、Data Store
  • BIツールとしてのLooker
  • Vertex AI は、モデルサービングが外部LLMを呼び出すために使用できます

リファレンス・アーキテクチャの構成

参照アーキテクチャは、 ソースインジェスト変換クエリ/プロセスサーブ分析ストレージ のスイムレーンに沿って構成されています。

  • ソース

    外部データをデータインテリジェンスプラットフォームに統合するには、次の3つの方法があります。

    • ETL:このプラットフォームは、半構造化データおよび非構造化データ(センサー、IoTデバイス、メディア、ファイル、ログなど)を提供するシステム、およびリレーショナルデータベースやビジネスアプリケーションからの構造化データとの統合を可能にします。

    • レイクハウスフェデレーション: SQLリレーショナルデータベースなどの ソースは、 なしでレイクハウスとUnity Catalog ETLに統合できます。この場合、ソース システムのデータは Unity Catalog によって管理され、クエリはソース システムにプッシュダウンされます。

    • カタログのフェデレーション:Hive metastore カタログはUnity Catalog 、カタログのフェデレーション を通じて に統合することもでき、Unity Catalog Hive metastoreに格納されたテーブルを制御できます。

  • インジェスト

    バッチまたはストリーミングでレイクハウスにデータを取り込みます。

    • Databricks LakeFlow Connect には、エンタープライズ アプリケーションやデータベースから取り込むための組み込みコネクタが用意されています。結果として得られるインジェスト パイプラインは Unity Catalog によって制御され、サーバレス コンピュートと DLT によって駆動されます。
    • クラウドストレージに配信されたファイルは、Databricks Auto Loader を使用して直接読み込むことができます。
    • エンタープライズアプリケーションから Delta Lakeへのデータのバッチ取り込みの場合、Databricks レイクハウスは、これらのレコードシステム用の特定のアダプターを備えたパートナー取り込みツールに依存しています。
    • ストリーミング イベントは、Databricksの構造化ストリーミングを使用して、Kafkaなどのイベント ストリーミング システムから直接取り込むことができます。ストリーミング ソースは、センサー、 IoT、または チェンジデータキャプチャ プロセスです。
  • ストレージ

  • 変換クエリ/プロセス

    • Databricks レイクハウスは、すべての変換とクエリに Apache SparkPhoton のエンジンを使用します。

    • DLT は、信頼性、保守性、テスト性に優れたデータ処理パイプラインを簡素化および最適化するための宣言型フレームワークです。

    • Apache SparkとPhotonを活用して、Databricksデータインテリジェンスプラットフォームは、 SQLウェアハウス を介したSQLクエリー、 ワークスペースのクラスターを通じた、SQL、Python、Scalaワークロードの両方をサポートします。

    • データサイエンス(ML モデリングと 生成AI)の場合、DatabricksのAI および機械学習プラットフォームは、 AutoML と ML ジョブのコーディングに特化した ML ランタイムを提供します。 すべてのデータサイエンスとMLOpsワークフローは、MLflowによって最適にサポートされます。

  • サービング

    データウェアハウジング (DWH) およびBIユースケース向けに、Databricks レイクハウスは、Databricks SQLSQLウェアハウスを搭載したデータウェアハウス、およびサーバレス SQLウェアハウスを提供しています。

    • 機械学習の場合、 Mosaic AI Model Serving は、Databricks コントロール プレーンでホストされるスケーラブルなリアルタイム エンタープライズ グレードのモデルサービング機能です。Mosaic AI Gateway はDatabricksサポートされている生成AI モデルとそれに関連するモデルサービング エンドポイントへのアクセスを管理および監視するためのソリューションです。

    • 運用データベース: 運用データベースなどの 外部システムを使用して、最終データ製品を格納し、ユーザー アプリケーションに配信できます。

    • コラボレーション: ビジネス パートナーは、 Delta Sharing を通じて必要なデータに安全にアクセスできます。 Delta Sharing を基盤とする Databricks Marketplace は、データ製品を交換するためのオープン フォーラムです。

  • 分析

    • 最終的なビジネスアプリケーションはこのスイムレーンにあります。例えば、レイクハウスから運用データベースにプッシュされたデータにアクセスするカスタムクライアントなどがあります。

    • BI のユースケースでは、アナリストは通常、 データウェアハウスにアクセスするBI ツールを使用します。 SQL 開発者は、 Databricks SQL エディター (図には示されていません) を使用して、クエリとダッシュボードに追加で使用できます。

    • Data Intelligence Platform には、データの視覚化を構築し、知見を共有するための ダッシュボード も用意されています。

  • 統合

    • Databricks プラットフォームは、 ユーザー管理シングルサインオン (SSO) のための標準 ID プロバイダーと統合されています。

    • OpenAILangChainHuggingFace などの外部 AI サービスは、Databricks Intelligence Platform 内から直接使用できます。

    • 外部オーケストレーターは、包括的な REST API を使用するか、 Apache Airflow などの外部オーケストレーション ツールへの専用コネクタを使用できます。

    • Unity Catalogは、Databricks Intelligence PlatformのすべてのデータおよびAIのガバナンスに使用され、レイクハウスフェデレーション を通じて他のデータベースをガバナンスに統合できます。

      さらに、Unity Catalog は他のエンタープライズ カタログに統合できます。 詳細については、エンタープライズ カタログ ベンダーにお問い合わせください。

すべてのワークロードに共通の機能

さらに、Databricksレイクハウスには、すべてのワークロードをサポートする管理機能が付属しています。

  • データとAIのガバナンス

    Databricks Data Intelligence Platform の中心的なデータと AI ガバナンスシステムは、 Unity Catalog です。 Unity Catalog は、すべてのワークスペースに適用され、テーブル、ボリューム、特徴量 (フィーチャ ストア)、モデル (モデルレジストリ) など、レイクハウスで作成または使用されるすべての資産をサポートするデータ アクセス ポリシーを 1 か所で管理します。 Unity Catalogは、 Databricksで実行されるクエリ間でランタイム データリネージをキャプチャ するためにも使用できます。

    Databricksのレイクハウスモニタリング を使用すると、アカウント内のすべてのテーブルのデータ品質をモニタリングできます。 また、 機械学習モデルとモデルサービングエンドポイントのパフォーマンスを追跡することもできます。

    可観測性のために、 システムテーブル は、アカウントの運用データの Databricksホスト型分析ストアです。 システムテーブルは、アカウント全体の履歴オブザーバビリティに使用できます。

  • データインテリジェンスエンジン

    Databricks Data Intelligence Platformは、組織全体がデータとAIを使用し、生成AIとレイクハウスの統合の利点を組み合わせて、データのユニークなセマンティクスを理解することができます。「Databricks AI を利用した機能」を参照してください。

    この Databricks Assistant は、 Databricks ノートブック、 SQL エディター、ファイルエディターなど、ユーザー向けのコンテキスト対応 AI アシスタントとして使用できます。

  • オートメーション&オーケストレーション

    Databricks ジョブは、Databricks Data Intelligence Platform でデータ処理、機械学習、アナリティクス パイプラインを調整します。DLT を使用すると、信頼性が高く保守性に優れた ETL パイプラインを宣言型構文で構築できます。 このプラットフォームは、CI/CDMLOps もサポートしています

Google Cloud 上の Data Intelligence Platform のユースケースの概要

を使用した アプリやデータベースからの組み込みSaaSLakeFlow Connect

GCP 上の Databricks での LFC を使用したインジェスト。

ダウンロード:LakeFlow Connect DatabricksonGCP の リファレンス アーキテクチャ。

Databricks LakeFlow Connect には、エンタープライズ アプリケーションやデータベースから取り込むための組み込みコネクタが用意されています。結果として得られるインジェスト パイプラインは Unity Catalog によって制御され、サーバレス コンピュートと DLTによって駆動されます。LakeFlow Connect は、効率的な増分読み取りと書き込みを活用して、データ取り込みをより速く、スケーラブルで、コスト効率を高めながら、データを最新のままダウンストリームで消費できるようにします。

バッチ取り込みとETL

GCP 上の Databricks でのバッチ ETL のリファレンス アーキテクチャ。

ダウンロード:Databricks on Google CloudのバッチETLリファレンスアーキテクチャ

インジェスト ツールは、ソース固有のアダプターを使用してソースからデータを読み取り、 Auto Loader 読み取り可能なクラウド上のストレージに格納するか、 Databricks を直接呼び出します (たとえば、パートナー インジェスト ツールを Databricks レイクハウスに統合します)。 データを読み込むために、Databricks ETL と処理エンジンは DLT を介してクエリを実行します。シングルタスクまたはマルチタスクのワークフローは、 Databricks ジョブ によってオーケストレーションされ、 Unity Catalog (アクセス制御、監査、リネージなど)によって管理されます。 低レイテンシの運用システム用に特定のゴールデンテーブルへのアクセスを提供するには、ETL パイプラインの最後にある RDBMS やキー値ストアなどの運用データベースにテーブルをエクスポートします。

ストリーミング and チェンジデータキャプチャ (CDC)

Spark Databricks on Google Cloudの構造化ストリーミング アーキテクチャ。

ダウンロード:Databricks on Google CloudのSpark構造化ストリーミングアーキテクチャ

Databricks ETL エンジンは、 Spark 構造化ストリーミング を使用して、Apache Kafka や Pub/Sub などのイベント キューから読み取ります。ダウンストリームの手順は、上記のバッチのユースケースのアプローチに従います。

リアルタイム チェンジデータキャプチャ (CDC) は、通常、イベント キューを使用して抽出されたイベントを格納します。 そこから、ユースケースはストリーミングのユースケースに従います。

CDCがバッチで実行され、ずクラウドストレージに保存される場合、Databricks Autoloaderはそれらを読み込むことができ、ユースケースはバッチETLに従います。

機械学習と AI (従来型)

Databricks on Google Cloudにおける機械学習とAIのリファレンスアーキテクチャ。

ダウンロード:Databricks on Google Cloudの機械学習およびAIリファレンスアーキテクチャ

機械学習については、Databricks Data Intelligence Platform が Mosaic AI を提供し、最先端の 機械学習ライブラリとディープラーニングライブラリが付属しています。Feature StoreModel Registry (どちらもUnity Catalogに統合)、AutoML付きローコード機能、データサイエンスライフサイクルへのMLflow統合などの機能を提供します。

すべてのデータサイエンス関連のアセット (テーブル、機能、モデル) はUnity Catalogによって管理され、data scientists ジョブDatabricksを使用してジョブを調整できます。

スケーラブルでエンタープライズ グレードの方法でモデルをデプロイするには、 MLOps 機能を使用してモデルをモデル サービングにパブリッシュします。

RAGアプリケーション(生成AI)

生成AI アプリケーション参照アーキテクチャ for Databricks on Google Cloud.

ダウンロード: Gen AI application reference architecture for Databricks on Google Cloud

AIは、Mosaic AI のユースケースに対応するために、最先端のライブラリと、プロンプトエンジニアリングからRAG(Retrieval Augmented Generation)アプリケーション、既存モデルのファインチューニングまで、特定の GenAI機能 を備えています。上記のアーキテクチャは、 ベクトル検索 を 生成AI RAG アプリケーションに統合する方法の例を示しています。

スケーラブルでエンタープライズグレードの方法でモデルをデプロイするには、MLOps機能を使用してモデルサービングでモデルを公開します。

BI and SQL アナリティクス

Databricks on Google CloudにおけるBI および SQL アナリティクス リファレンス アーキテクチャ。

ダウンロード:Databricks on Google CloudのBIおよびSQLアナリティクスのリファレンスアーキテクチャ

BI のユースケースでは、ビジネスアナリストは ダッシュボードDatabricks SQL エディター 、または Tableau や Looker などの BI ツール を使用できます。どちらの場合も、エンジンは Databricks SQL (サーバレスまたは非サーバレス) であり、 Unity Catalog がデータディスカバリー、探索、およびアクセス制御を提供します。

レイクハウス連合

Databricks on Google Cloudにおけるレイクハウス フェデレーション リファレンス アーキテクチャ。

ダウンロード: Databricks on Google Cloudのレイクハウスフェデレーションリファレンスアーキテクチャ

レイクハウスフェデレーション を使用すると、外部データのSQLデータベース(MySQLやPostgresなど)をDatabricksと統合できます。

最初にデータをオブジェクトストレージにETLする必要がなく、すべてのワークロード (AI、DWH、BI) がこのメリットを享受できます。外部ソースカタログはUnity Catalogにマッピングされ、Databricksプラットフォーム経由のアクセスにきめ細かいアクセス制御を適用できます。

カタログのフェデレーション

Databricks on Google Cloudのカタログ統合参照アーキテクチャ

ダウンロード: Databricks on Google Cloud のカタログ統合参照アーキテクチャ

カタログ フェデレーション を使用すると、外部の Hive メタストア (MySQL や Postgres など) を Databricks と統合できます。

すべてのワークロード(AI、DWH、BI)は、最初にデータをオブジェクトストレージにETLしなくても、このメリットを享受できます。外部ソース カタログは、Unity Catalog プラットフォームを介してきめ細かなアクセス制御が適用されるDatabricks に追加されます。

サードパーティのツールとデータを共有する

GCP 上の Databricks のエンタープライズ データ共有リファレンス アーキテクチャ。

ダウンロード: 3rd パーティ ツールとのデータ共有: Databricks on Google Cloud のリファレンス アーキテクチャ

第三者とのエンタープライズグレードのデータ共有は、 Delta Sharingによって提供されます。これにより、Unity Catalog によって保護されたオブジェクト ストア内のデータに直接アクセスできます。この機能は、データ製品を交換するためのオープンフォーラムである Databricks Marketplace でも使用されます。

Databricks から共有データを使用する

Databricks の共有データを GCP 上の Databricks で使用します。

ダウンロード: の参照アーキテクチャから共有データを使用するDatabricksDatabricks on Google Cloud

Delta Sharing Databricks-to-Databricksプロトコルを使用すると、Unity Catalogが有効になっているワークスペースにアクセスできるユーザーであれば、アカウントやクラウドホストに関係なく、任意のDatabricksユーザーとデータを安全に共有できます。