レイクハウスのリファレンスアーキテクチャ (ダウンロード)

この記事では、データソース、インジェスト、変換、クエリと処理、サービング、分析、ストレージに関するレイクハウスのアーキテクチャガイダンスについて説明します。

各リファレンスアーキテクチャは、11 x 17（A3）フォーマットのPDFをダウンロードできます。

Databricks のレイクハウスは、パートナーツールの大規模なエコシステムと統合するオープンプラットフォームですが、リファレンスアーキテクチャは AWS サービスと Databricks レイクハウスのみに焦点を当てています。示されているクラウドプロバイダーサービスは、概念を説明するために選択されており、すべてを網羅しているわけではありません。

AWS 上の Databricks レイクハウスのリファレンスアーキテクチャ。

ダウンロード：AWS上のDatabricksレイクハウスのリファレンスアーキテクチャ

AWS リファレンスアーキテクチャは、取り込み、保存、サービス、および分析のための次の AWS 固有のサービスを示しています。

レイクハウスフェデレーションのソースとしてのAmazon Redshift
バッチ取り込み用のAmazon AppFlowとAWS Glue
AWS IoT Core、Amazon Kinesis、AWS DMSによるストリーミング取り込み
Amazon S3 は、データおよび AI アセットのオブジェクトストレージとして
運用データベースとしてのAmazon RDSとAmazon DynamoDB
BIツールとしてのAmazon QuickSight
Amazon Bedrockは、モデルサービングが主要なAIスタートアップやAmazonの外部LLMを呼び出すために使用されます

リファレンス・アーキテクチャの構成

参照アーキテクチャは、 ソース 、 インジェスト 、変換、 クエリ/プロセス 、 サーブ 、分析、 ストレージ のスイムレーンに沿って構成されています。

ソース

外部データをデータインテリジェンスプラットフォームに統合するには、次の3つの方法があります。
- ETL:このプラットフォームは、半構造化データおよび非構造化データ(センサー、IoTデバイス、メディア、ファイル、ログなど)を提供するシステム、およびリレーショナルデータベースやビジネスアプリケーションからの構造化データとの統合を可能にします。
- レイクハウスフェデレーション: SQLリレーショナルデータベースなどのソースは、なしでレイクハウスとUnity Catalog ETLに統合できます。この場合、ソースシステムのデータは Unity Catalog によって管理され、クエリはソースシステムにプッシュダウンされます。
- カタログのフェデレーション: 外部のHive metastore カタログまたはAWSGlue Unity Catalogは、カタログのフェデレーションを通じてに統合することもでき、Unity Catalog Hive metastoreまたはAWSGlue に格納されたテーブルを制御できます。
インジェスト

バッチまたはストリーミングでレイクハウスにデータを取り込みます。
- Databricks LakeFlow Connect には、エンタープライズアプリケーションやデータベースから取り込むための組み込みコネクタが用意されています。結果として得られるインジェストパイプラインは Unity Catalog によって制御され、サーバレスコンピュートと DLT によって駆動されます。
- クラウドストレージに配信されたファイルは、Databricks Auto Loader を使用して直接読み込むことができます。
- エンタープライズアプリケーションから Delta Lakeへのデータのバッチ取り込みの場合、Databricks レイクハウスは、これらのレコードシステム用の特定のアダプターを備えたパートナー取り込みツールに依存しています。
- ストリーミングイベントは、Databricksの構造化ストリーミングを使用して、Kafkaなどのイベントストリーミングシステムから直接取り込むことができます。ストリーミングソースは、センサー、 IoT、またはチェンジデータキャプチャプロセスです。
ストレージ
- データは通常、クラウド上でストレージシステムに保存され、 ETL パイプラインはメダリオンアーキテクチャを使用して、 Delta ファイル/テーブルまたは Iceberg テーブルとしてキュレーションされた方法でデータを格納します。
変換と クエリ/プロセス
- Databricks レイクハウスは、すべての変換とクエリに Apache Spark と Photon のエンジンを使用します。
- DLT は、信頼性、保守性、テスト性に優れたデータ処理パイプラインを簡素化および最適化するための宣言型フレームワークです。
- Apache SparkとPhotonを活用して、Databricksデータインテリジェンスプラットフォームは、 SQLウェアハウスを介したSQLクエリー、ワークスペースのクラスターを通じた、SQL、Python、Scalaワークロードの両方をサポートします。
- データサイエンス(ML モデリングと生成AI)の場合、DatabricksのAI および機械学習プラットフォームは、 AutoML と ML ジョブのコーディングに特化した ML ランタイムを提供します。すべてのデータサイエンスとMLOpsワークフローは、MLflowによって最適にサポートされます。
サービング

データウェアハウジング (DWH) およびBIユースケース向けに、Databricks レイクハウスは、Databricks SQL、SQLウェアハウスを搭載したデータウェアハウス、およびサーバレス SQLウェアハウスを提供しています。
- 機械学習の場合、 Mosaic AI Model Serving は、Databricks コントロールプレーンでホストされるスケーラブルなリアルタイムエンタープライズグレードのモデルサービング機能です。Mosaic AI Gateway はDatabricksサポートされている生成AI モデルとそれに関連するモデルサービングエンドポイントへのアクセスを管理および監視するためのソリューションです。
- 運用データベース: 運用データベースなどの外部システムを使用して、最終データ製品を格納し、ユーザーアプリケーションに配信できます。
- コラボレーション: ビジネスパートナーは、 Delta Sharing を通じて必要なデータに安全にアクセスできます。 Delta Sharing を基盤とする Databricks Marketplace は、データ製品を交換するためのオープンフォーラムです。
- クリーンルームは、複数のユーザーが互いのデータに直接アクセスすることなく、機密性の高い企業データで共同作業ができる、安全でプライバシー保護の環境です。
分析
- 最終的なビジネスアプリケーションは、このスイムレーンにあります。例としては、 Mosaic AI Model Serving に接続された AI アプリケーションや、リアルタイム推論のための AI アプリケーション、レイクハウスからオペレーショナルデータベースにプッシュされたデータにアクセスするアプリケーションなどのカスタムクライアントがあります。
- BI のユースケースでは、アナリストは通常、データウェアハウスにアクセスするBI ツールを使用します。 SQL 開発者は、 Databricks SQL エディター (図には示されていません) を使用して、クエリとダッシュボードに追加で使用できます。
- Data Intelligence Platform には、データの視覚化を構築し、知見を共有するためのダッシュボードも用意されています。
統合
- Databricks プラットフォームは、ユーザー管理とシングルサインオン (SSO) のための標準 ID プロバイダーと統合されています。
- OpenAI、LangChain、HuggingFace などの外部 AI サービスは、Databricks Intelligence Platform 内から直接使用できます。
- 外部オーケストレーターは、包括的な REST API を使用するか、 Apache Airflow などの外部オーケストレーションツールへの専用コネクタを使用できます。
- Unity Catalogは、Databricks Intelligence PlatformのすべてのデータおよびAIのガバナンスに使用され、レイクハウスフェデレーションを通じて他のデータベースをガバナンスに統合できます。
  
  さらに、Unity Catalog は他のエンタープライズカタログに統合できます。詳細については、エンタープライズカタログベンダーにお問い合わせください。

すべてのワークロードに共通の機能

さらに、Databricksレイクハウスには、すべてのワークロードをサポートする管理機能が付属しています。

データとAIのガバナンス

Databricks Data Intelligence Platform の中心的なデータと AI ガバナンスシステムは、 Unity Catalog です。 Unity Catalog は、すべてのワークスペースに適用され、テーブル、ボリューム、特徴量 (フィーチャストア)、モデル (モデルレジストリ) など、レイクハウスで作成または使用されるすべての資産をサポートするデータアクセスポリシーを 1 か所で管理します。 Unity Catalogは、 Databricksで実行されるクエリ間でランタイムデータリネージをキャプチャするためにも使用できます。

Databricksのレイクハウスモニタリングを使用すると、アカウント内のすべてのテーブルのデータ品質をモニタリングできます。また、機械学習モデルとモデルサービングエンドポイントのパフォーマンスを追跡することもできます。

可観測性のために、システムテーブルは、アカウントの運用データの Databricksホスト型分析ストアです。システムテーブルは、アカウント全体の履歴オブザーバビリティに使用できます。
データインテリジェンスエンジン

Databricks Data Intelligence Platformは、組織全体がデータとAIを使用し、生成AIとレイクハウスの統合の利点を組み合わせて、データのユニークなセマンティクスを理解することができます。「Databricks AI を利用した機能」を参照してください。

この Databricks Assistant は、 Databricks ノートブック、 SQL エディター、ファイルエディターなど、ユーザー向けのコンテキスト対応 AI アシスタントとして使用できます。
オートメーション&オーケストレーション

Databricks ジョブは、Databricks Data Intelligence Platform でデータ処理、機械学習、アナリティクスパイプラインを調整します。DLT を使用すると、信頼性が高く保守性に優れた ETL パイプラインを宣言型構文で構築できます。このプラットフォームは、CI/CD と MLOps もサポートしています

AWS 上の Data Intelligence Platform の高レベルのユースケース

を使用したアプリやデータベースからの組み込みSaaSLakeFlow Connect

Databricks on AWSでのLFCによる取り込み。

ダウンロード:LakeFlow Connect のリファレンスアーキテクチャDatabricks on AWS

Databricks LakeFlow Connect には、エンタープライズアプリケーションやデータベースから取り込むための組み込みコネクタが用意されています。結果として得られるインジェストパイプラインは Unity Catalog によって制御され、サーバレスコンピュートと DLTによって駆動されます。LakeFlow Connect は、効率的な増分読み取りと書き込みを活用して、データ取り込みをより速く、スケーラブルで、コスト効率を高めながら、データを最新のままダウンストリームで消費できるようにします。

バッチ取り込みとETL

Databricks on AWSにおけるバッチ ETL リファレンスアーキテクチャ。

ダウンロード：Databricks on AWSのバッチETLリファレンスアーキテクチャ

インジェストツールは、ソース固有のアダプターを使用してソースからデータを読み取り、 Auto Loader 読み取り可能なクラウド上のストレージに格納するか、 Databricks を直接呼び出します (たとえば、パートナーインジェストツールを Databricks レイクハウスに統合します)。データを読み込むために、Databricks ETL と処理エンジンは DLT を介してクエリを実行します。シングルタスクまたはマルチタスクのワークフローは、 Databricks ジョブによってオーケストレーションされ、 Unity Catalog (アクセス制御、監査、リネージなど)によって管理されます。低レイテンシの運用システム用に特定のゴールデンテーブルへのアクセスを提供するには、ETL パイプラインの最後にある RDBMS やキー値ストアなどの運用データベースにテーブルをエクスポートします。

ストリーミング and チェンジデータキャプチャ (CDC)

Databricks on AWSのSpark構造化ストリーミングアーキテクチャ。

ダウンロード：Databricks on AWSのSpark構造化ストリーミングアーキテクチャ

DatabricksETLエンジンSparkApacheKafkaAWSKinesis、やなどのイベントキューから読み取るための構造化ストリーミングダウンストリームの手順は、上記のバッチのユースケースのアプローチに従います。

リアルタイムチェンジデータキャプチャ (CDC) は、通常、イベントキューを使用して抽出されたイベントを格納します。そこから、ユースケースはストリーミングのユースケースに従います。

CDCがバッチで実行され、ずクラウドストレージに保存される場合、Databricks Autoloaderはそれらを読み込むことができ、ユースケースはバッチETLに従います。

機械学習と AI (従来型)

Databricks on AWSにおける機械学習とAIのリファレンスアーキテクチャ

ダウンロード：Databricks on AWSの機械学習およびAIリファレンスアーキテクチャ

機械学習については、Databricks Data Intelligence Platform が Mosaic AI を提供し、最先端の機械学習ライブラリとディープラーニングライブラリが付属しています。Feature StoreとModel Registry (どちらもUnity Catalogに統合)、AutoML付きローコード機能、データサイエンスライフサイクルへのMLflow統合などの機能を提供します。

すべてのデータサイエンス関連のアセット (テーブル、機能、モデル) はUnity Catalogによって管理され、data scientists ジョブDatabricksを使用してジョブを調整できます。

スケーラブルでエンタープライズグレードの方法でモデルをデプロイするには、 MLOps 機能を使用してモデルをモデルサービングにパブリッシュします。

AIエージェントアプリケーション(生成AI)

Databricks on AWS�における生成AI アプリケーション参照アーキテクチャ

ダウンロード: Databricks on AWSにおける生成AIアプリケーションのリファレンスアーキテクチャ

生成AI ユースケースのために、Mosaic AI には最先端のライブラリと、プロンプトエンジニアリングからAIAIエージェントの構築、既存モデルのファインチューニングまで、特定の Gen 機能が付属しています。上記のアーキテクチャは、ベクトル検索を生成AI エージェントに統合する方法の例を示しています。

スケーラブルでエンタープライズグレードの方法でモデルをデプロイするには、MLOps機能を使用してモデルサービングでモデルを公開します。

BI and SQL アナリティクス

Databricks on AWSにおけるBI および SQL アナリティクスリファレンスアーキテクチャ

ダウンロード：Databricks on AWSのBIおよびSQLアナリティクスのリファレンスアーキテクチャ

BI のユースケースでは、ビジネスアナリストはダッシュボード、 Databricks SQL エディター、または Tableau や Amazon QuickSight などの BI ツールを使用できます。いずれの場合も、エンジンは Databricks SQL (サーバレスまたは非サーバレス) であり、 Unity Catalog がデータディスカバリー、探索、リネージ、およびアクセス制御を提供します。

レイクハウス連合

Databricks on AWSにおけるレイクハウスフェデレーションリファレンスアーキテクチャ。

ダウンロード: Databricks on AWSのレイクハウスフェデレーションリファレンスアーキテクチャ

レイクハウスフェデレーションを使用すると、外部データのSQLデータベース(MySQL、Postgres、Redshiftなど)をDatabricksと統合できます。

最初にデータをオブジェクトストレージにETLする必要がなく、すべてのワークロード (AI、DWH、BI) がこのメリットを享受できます。外部ソースカタログはUnity Catalogにマッピングされ、Databricksプラットフォーム経由のアクセスにきめ細かいアクセス制御を適用できます。

カタログのフェデレーション

Databricks on AWSのカタログ統合参照アーキテクチャ

ダウンロード: Databricks on AWS のカタログ統合参照アーキテクチャ

カタログフェデレーションを使用すると、外部の Hive メタストア (MySQL、Postgres、Redshift など) または Amazon Glue を Databricks と統合できます。

すべてのワークロード(AI、DWH、BI)は、最初にデータをオブジェクトストレージにETLしなくても、このメリットを享受できます。外部ソースカタログは、Unity Catalog プラットフォームを介してきめ細かなアクセス制御が適用されるDatabricks に追加されます。

サードパーティのツールとデータを共有する

Databricks on AWSにおける企業データ共有のリファレンスアーキテクチャ。

ダウンロード: 3rd パーティツールとのデータ共有: Databricks on AWS のリファレンスアーキテクチャ

第三者とのエンタープライズグレードのデータ共有は、 Delta Sharingによって提供されます。これにより、Unity Catalog によって保護されたオブジェクトストア内のデータに直接アクセスできます。この機能は、データ製品を交換するためのオープンフォーラムである Databricks Marketplace でも使用されます。

Databricks から共有データを使用する

Databricks for Databricks on AWSから共有データを使用します。

ダウンロード: の参照アーキテクチャから共有データを使用するDatabricksDatabricks on AWS

Delta Sharing Databricks-to-Databricksプロトコルを使用すると、Unity Catalogが有効になっているワークスペースにアクセスできるユーザーであれば、アカウントやクラウドホストに関係なく、任意のDatabricksユーザーとデータを安全に共有できます。

リファレンス・アーキテクチャの構成​

すべてのワークロードに共通の機能​

AWS 上の Data Intelligence Platform の高レベルのユースケース​

を使用した アプリやデータベースからの組み込みSaaSLakeFlow Connect​

バッチ取り込みとETL​

ストリーミング and チェンジデータキャプチャ (CDC)​

機械学習と AI (従来型)​

AIエージェントアプリケーション(生成AI)​

BI and SQL アナリティクス​

レイクハウス連合​

カタログのフェデレーション​

サードパーティのツールとデータを共有する​

Databricks から共有データを使用する​