レイクハウスのリファレンスアーキテクチャ (ダウンロード)
この記事では、データソース、インジェスト、変換、クエリと処理、サービング、分析、ストレージに関するレイクハウスのアーキテクチャ ガイダンスについて説明します。
各リファレンスアーキテクチャは、11 x 17(A3)フォーマットのPDFをダウンロードできます。
Databricks のレイクハウスは、 パートナー ツールの大規模なエコシステムと統合されるオープン プラットフォームですが、リファレンス アーキテクチャは Google Cloud サービスと Databricks レイクハウスのみに焦点を当てています。 示されているクラウド プロバイダー サービスは、概念を説明するために選択されており、すべてを網羅しているわけではありません。
ダウンロード: Google Cloud 上の Databricks レイクハウスのリファレンス アーキテクチャ
GCP リファレンス アーキテクチャには、取り込み、保存、配信、分析のための次の GCP 固有のサービスが示されています。
- レイクハウスフェデレーションのソースシステムとしてのBigQuery
- ストリーミング取り込み用のPub/Subとデータストリーム
- バッチ取り込み用のCクラウドフュージョンとストレージ転送サービス
- オブジェクトストレージとしてのクラウドストレージ
- 運用データベースとしてのCloud Big Table、Cloud SQL、Data Store
- BIツールとしてのLooker
リファレンス・アーキテクチャの構成
参照アーキテクチャは、 ソース 、 インジェスト 、 変換 、 クエリ/プロセス 、 サーブ 、 分析 、 ストレージ のスイムレーンに沿って構成されています。
-
ソース
このアーキテクチャでは、半構造化データと非構造化データ (センサーと IoT、メディア、ファイル/ログ)、および構造化データ (RDBMS、ビジネス アプリケーション) が区別されます。 SQLソース ()RDBMS は、 レイクハウス連合 を通じて なしでレイクハウスに統合し、Unity Catalog ETLすることもできます。さらに、データは他のクラウドプロバイダーからロードされる場合があります。
-
インジェスト
データはバッチまたはストリーミング経由でレイクハウスに取り込むことができます。
- クラウドストレージに配信されたファイルは、Databricks Auto Loader を使用して直接読み込むことができます。
- エンタープライズアプリケーションから Delta Lakeへのデータのバッチ取り込みの場合、Databricks レイクハウスは、これらのレコードシステム用の特定のアダプターを備えたパートナー取り込みツールに依存しています。
- ストリーミング イベントは、Kafka Databricks構造化ストリーミング を使用して、 などのイベント ストリーミング システムから直接取り込むことができます。ストリーミング ソースは、sensors、 IoT、または チェンジデータキャプチャ プロセスです。
-
ストレージ
データは通常、クラウド上でストレージシステムに保存され、 ETL パイプラインは メダリオンアーキテクチャ を使用して、 Delta ファイル/テーブルとしてキュレーションされた方法でデータを格納します。
-
変換 と クエリ/プロセス
Databricks レイクハウスは、すべての変換とクエリに Apache Spark と Photon のエンジンを使用します。
DLT (DLT) は、信頼性が高く、保守可能で、テスト可能なデータ処理パイプラインを簡略化および最適化するための宣言型フレームワークです。
と を搭載したApache SparkPhoton DatabricksData Intelligence Platform は、SQL SQLウェアハウス を介した SQLPythonScalaクエリと、ワークスペースクラスター による 、 、 ワークロードの両方のタイプのワークロードをサポートします。
データサイエンス (ML モデリング) の場合、Databricks AI および機械学習プラットフォームは 、 AutoML と ML ジョブのコーディングに特化した ML ランタイムを提供します。 すべてのデータサイエンスとMLOpsワークフローは、MLflowによって最適にサポートされます。
-
サービング
DWH と BI のユースケースでは、Databricks レイクハウスは Databricks SQL、SQLウェアハウスを搭載したデータウェアハウス、およびサーバレス SQLウェアハウスを提供しています。
機械学習の場合、 モデルサービング は、Databricks コントロールプレーンでホストされるスケーラブルでリアルタイムのエンタープライズグレードのモデルサービング機能です。 Mosaic AI Gateway はDatabricksモデルとそれに関連するモデルサービング エンドポイントAI制御およびモニタリング アクセスのためのソリューションです。
運用データベース: 運用データベースなどの 外部システムを使用して、最終データ製品を格納し、ユーザー アプリケーションに配信できます。
コラボレーション: ビジネス パートナーは、 Delta Sharing を通じて必要なデータに安全にアクセスできます。 Delta Sharing を基盤とする Databricks Marketplace は、データ製品を交換するためのオープン フォーラムです。
-
分析
最終的なビジネスアプリケーションはこのスイムレーンにあります。例えば、レイクハウスから運用データベースにプッシュされたデータにアクセスするカスタムクライアントなどがあります。
BI のユースケースでは、アナリストは通常、 BI ツールを使用してデータウェアハウスにアクセスします。 SQL 開発者は、 Databricks SQL エディター (図には示されていません) を使用して、クエリとダッシュボードに追加で使用できます。
Data Intelligence Platform には、データの視覚化を構築し、知見を共有するための ダッシュボード も用意されています。
-
統合
-
Databricks プラットフォームは、 ユーザー管理 と シングルサインオン (SSO) のための標準 ID プロバイダーと統合されています。
-
OpenAI、LangChain、HuggingFace などの外部 AI サービスは、Databricks Intelligence Platform 内から直接使用できます。
-
外部オーケストレーターは、包括的な REST API を使用するか、 Apache Airflow などの外部オーケストレーション ツールへの専用コネクタを使用できます。
-
Unity CatalogAIは、Databricks Intelligence Platformのすべてのデータおよび ガバナンスに使用され、レイクハウスフェデレーション を通じて他のデータベースをガバナンスに統合できます。
さらに、Unity Catalog は他のエンタープライズ カタログに統合できます。 詳細については、エンタープライズ カタログ ベンダーにお問い合わせください。
-
すべてのワークロードに共通の機能
さらに、Databricksレイクハウスには、すべてのワークロードをサポートする管理機能が付属しています。
-
データとAIのガバナンス
Databricks Data Intelligence Platform の中心的なデータと AI ガバナンスシステムは、 Unity Catalog です。 Unity Catalog は、すべてのワークスペースに適用され、テーブル、ボリューム、機能 (フィーチャ ストア)、モデル (モデルレジストリ) など、レイクハウスで作成または使用されるすべての資産をサポートするデータ アクセス ポリシーを 1 か所で管理します。 は、Unity Catalog で実行されるクエリ間でランタイム データリネージをキャプチャDatabricks するためにも使用できます。
Databricks レイクハウスモニタリング を使用すると、アカウント内のすべてのテーブルのデータ品質をモニタリングできます。 また、 機械学習モデルとモデルサービングエンドポイントのパフォーマンスを追跡することもできます。
可観測性のために、 システムテーブル は、アカウントの運用データの Databricksホスト型分析ストアです。 システムテーブルは、アカウント全体の履歴オブザーバビリティに使用できます。
-
データインテリジェンスエンジン
Databricks Data Intelligence Platform を使用すると、組織全体でデータと AI を使用できます。これは、Databricks AIによって駆動され、生成AIとレイクハウスの統合の利点を組み合わせて、データの一意のセマンティクスを理解します。
この Databricks Assistant は、 Databricks ノートブック、 SQL エディター、およびファイルエディターで、開発者向けのコンテキスト対応 AI アシスタントとして使用できます。
-
オートメーション&オーケストレーション
Databricks ジョブは、Databricks Data Intelligence Platform でデータ処理、機械学習、アナリティクス パイプラインを調整します。DLT を使用すると、信頼性が高く保守性に優れた ETL パイプラインを宣言型構文で構築できます。 このプラットフォームは、CI/CD と MLOps もサポートしています
Google Cloud 上の Data Intelligence Platform のユースケースの概要
Databricks LakeFlow Connect には、エンタープライズ アプリケーションやデータベースから取り込むための組み込みコネクタが用意されています。 結果として得られるインジェスト パイプラインは Unity Catalog によって制御され、サーバレス コンピュートと DLT によって駆動されます。LakeFlow Connect は、効率的な増分読み取りと書き込みを活用して、データ取り込みをより速く、スケーラブルで、コスト効率を高めながら、データを最新のままダウンストリームで消費できるようにします。
ユースケース:バッチ ETL
ダウンロード:Databricks on Google CloudのバッチETLリファレンスアーキテクチャ
インジェスト ツールは、ソース固有のアダプターを使用してソースからデータを読み取り、 Auto Loader 読み取り可能なクラウド上のストレージに格納するか、 Databricks を直接呼び出します (たとえば、パートナー インジェスト ツールを Databricks レイクハウスに統合します)。 データを読み込むために、Databricks ETL と処理エンジン (DLT 経由) がクエリを実行します。 シングルタスクまたはマルチタスクのワークフローは、 Databricks ジョブによってオーケストレーションされ、 Unity Catalog (アクセス制御、監査、リネージなど)によって管理されます。 低レイテンシの運用システムが特定のゴールデンテーブルへのアクセスを必要とする場合は、ETL パイプラインの最後にある RDBMS やキーバリューストアなどの運用データベースにエクスポートできます。
使用例: ストリーミング and チェンジデータキャプチャ (CDC)
ダウンロード:Databricks on Google CloudのSpark構造化ストリーミングアーキテクチャ
Databricks ETLエンジンは、Spark構造化ストリーミングを使用して、Apache KafkaやPub/Subなどのイベントキューから読み取ります。下流のステップは、上記のバッチのユースケースのアプローチに従います。
リアルタイム変更データキャプチャ(CDC)は通常、イベントキューを使用して抽出されたイベントを保存します。そこから、ユースケースはストリーミングのユースケースに従います。
CDCがバッチで実行され、ずクラウドストレージに保存される場合、Databricks Autoloaderはそれらを読み込むことができ、ユースケースはバッチETLに従います。
ユースケース:機械学習とAI
ダウンロード:Databricks on Google Cloudの機械学習およびAIリファレンスアーキテクチャ
機械学習のために、Databricks Data Intelligence Platformは、最先端の機械学習とディープラーニングのライブラリを備えたMosaic AIを提供します。これは、Feature Storeやモデルレジストリ(いずれもUnity Catalogに統合)、AutoMLによるローコード機能、データサイエンスライフサイクルへのMLflow統合などの機能を提供します。
すべてのデータサイエンス関連の資産 (テーブル、機能、モデル) は Unity Catalog によって管理され、 data scientists ジョブ Databricks を使用してジョブを調整できます。
スケーラブルでエンタープライズグレードの方法でモデルをデプロイするには、MLOps機能を使用してモデルサービングでモデルを公開します。
ユースケース: BI および SQL アナリティクス
ダウンロード:Databricks on Google CloudのBIおよびSQLアナリティクスのリファレンスアーキテクチャ
BIのユースケースでは、ビジネスアナリストはDatabricks SQLエディターか、TableauやLookerなどの特定のBIツールを使用できます。どちらの場合も、エンジンはDatabricks SQL(サーバレスまたは非サーバレス)であり、データディスカバリー、探索、アクセス制御はUnity Catalogによって提供されます。
ユースケース:レイクハウスフェデレーション
ダウンロード: Databricks on Google Cloudのレイクハウスフェデレーションリファレンスアーキテクチャ
レイクハウスフェデレーションでは、外部のデータSQLデータベース(MySQLやPostgresなど)をDatabricksと統合できます。
最初にデータをオブジェクトストレージにETLする必要がなく、すべてのワークロード (AI、DWH、BI) がこのメリットを享受できます。外部ソースカタログはUnity Catalogにマッピングされ、Databricksプラットフォーム経由のアクセスにきめ細かいアクセス制御を適用できます。
ユースケース:エンタープライズデータ共有
ダウンロード:Databricks on Google Cloudのエンタープライズデータ共有リファレンスアーキテクチャ
エンタープライズグレードのデータ共有は、Delta Sharingによって提供されます。Unity Catalogで保護されたオブジェクトストア内のデータに直接アクセスでき、Databricks Marketplaceはデータ製品を交換するためのオープンフォーラムです。