メインコンテンツまでスキップ

レイクハウスのリファレンスアーキテクチャ (ダウンロード)

この記事では、データソース、インジェスト、変換、クエリと処理、サービング、分析、ストレージに関するレイクハウスのアーキテクチャ ガイダンスについて説明します。

各リファレンスアーキテクチャは、11 x 17(A3)フォーマットのPDFをダウンロードできます。

Databricks のレイクハウスは、 パートナーツールの大規模なエコシステムと統合するオープンプラットフォームですが、リファレンスアーキテクチャは AWS サービスと Databricks レイクハウスのみに焦点を当てています。 示されているクラウド プロバイダー サービスは、概念を説明するために選択されており、すべてを網羅しているわけではありません。

AWS 上の Databricks レイクハウスのリファレンスアーキテクチャ。

ダウンロード:AWS上のDatabricksレイクハウスのリファレンスアーキテクチャ

AWS リファレンスアーキテクチャは、取り込み、保存、サービス、および分析のための次の AWS 固有のサービスを示しています。

  • レイクハウスフェデレーションのソースとしてのAmazon Redshift
  • バッチ取り込み用のAmazon AppFlowとAWS Glue
  • AWS IoT Core、Amazon Kinesis、AWS DMSによるストリーミング取り込み
  • Amazon S3 は、データおよび AI アセットのオブジェクトストレージとして
  • 運用データベースとしてのAmazon RDSとAmazon DynamoDB
  • BIツールとしてのAmazon QuickSight
  • Amazon Bedrockは、モデルサービングが主要なAIスタートアップやAmazonの外部LLMを呼び出すために使用されます

リファレンス・アーキテクチャの構成

参照アーキテクチャは、 ソースインジェスト変換クエリ/プロセスサーブ分析ストレージ のスイムレーンに沿って構成されています。

  • ソース

    外部データをデータインテリジェンスプラットフォームに統合するには、次の3つの方法があります。

    • ETL:このプラットフォームは、半構造化データおよび非構造化データ(センサー、IoTデバイス、メディア、ファイル、ログなど)を提供するシステム、およびリレーショナルデータベースやビジネスアプリケーションからの構造化データとの統合を可能にします。

    • レイクハウスフェデレーション: SQLリレーショナルデータベースなどの ソースは、 なしでレイクハウスとUnity Catalog ETLに統合できます。この場合、ソース システムのデータは Unity Catalog によって管理され、クエリはソース システムにプッシュダウンされます。

    • カタログのフェデレーション: 外部のHive metastore カタログまたはAWSGlue Unity Catalogは、カタログのフェデレーション を通じて に統合することもでき、Unity Catalog Hive metastoreまたはAWSGlue に格納されたテーブルを制御できます。

  • インジェスト

    バッチまたはストリーミングでレイクハウスにデータを取り込みます。

    • Databricks LakeFlow Connect には、エンタープライズ アプリケーションやデータベースから取り込むための組み込みコネクタが用意されています。結果として得られるインジェスト パイプラインは Unity Catalog によって制御され、サーバレス コンピュートと DLT によって駆動されます。
    • クラウドストレージに配信されたファイルは、Databricks Auto Loader を使用して直接読み込むことができます。
    • エンタープライズアプリケーションから Delta Lakeへのデータのバッチ取り込みの場合、Databricks レイクハウスは、これらのレコードシステム用の特定のアダプターを備えたパートナー取り込みツールに依存しています。
    • ストリーミング イベントは、Databricksの構造化ストリーミングを使用して、Kafkaなどのイベント ストリーミング システムから直接取り込むことができます。ストリーミング ソースは、センサー、 IoT、または チェンジデータキャプチャ プロセスです。
  • ストレージ

  • 変換クエリ/プロセス

    • Databricks レイクハウスは、すべての変換とクエリに Apache SparkPhoton のエンジンを使用します。

    • DLT は、信頼性、保守性、テスト性に優れたデータ処理パイプラインを簡素化および最適化するための宣言型フレームワークです。

    • Apache SparkとPhotonを活用して、Databricksデータインテリジェンスプラットフォームは、 SQLウェアハウス を介したSQLクエリー、 ワークスペースのクラスターを通じた、SQL、Python、Scalaワークロードの両方をサポートします。

    • データサイエンス(ML モデリングと 生成AI)の場合、DatabricksのAI および機械学習プラットフォームは、 AutoML と ML ジョブのコーディングに特化した ML ランタイムを提供します。 すべてのデータサイエンスとMLOpsワークフローは、MLflowによって最適にサポートされます。

  • サービング

    データウェアハウジング (DWH) およびBIユースケース向けに、Databricks レイクハウスは、Databricks SQLSQLウェアハウスを搭載したデータウェアハウス、およびサーバレス SQLウェアハウスを提供しています。

    • 機械学習の場合、 Mosaic AI Model Serving は、Databricks コントロール プレーンでホストされるスケーラブルなリアルタイム エンタープライズ グレードのモデルサービング機能です。Mosaic AI Gateway はDatabricksサポートされている生成AI モデルとそれに関連するモデルサービング エンドポイントへのアクセスを管理および監視するためのソリューションです。

    • 運用データベース: 運用データベースなどの 外部システムを使用して、最終データ製品を格納し、ユーザー アプリケーションに配信できます。

    • コラボレーション: ビジネス パートナーは、 Delta Sharing を通じて必要なデータに安全にアクセスできます。 Delta Sharing を基盤とする Databricks Marketplace は、データ製品を交換するためのオープン フォーラムです。

    • クリーンルーム は、複数のユーザーが互いのデータに直接アクセスすることなく、機密性の高い企業データで共同作業ができる、安全でプライバシー保護の環境です。

  • 分析

    • 最終的なビジネスアプリケーションは、このスイムレーンにあります。 例としては、 Mosaic AI Model Serving に接続された AI アプリケーションや、リアルタイム推論のための AI アプリケーション、レイクハウスからオペレーショナル データベースにプッシュされたデータにアクセスするアプリケーションなどのカスタム クライアントがあります。

    • BI のユースケースでは、アナリストは通常、 データウェアハウスにアクセスするBI ツールを使用します。 SQL 開発者は、 Databricks SQL エディター (図には示されていません) を使用して、クエリとダッシュボードに追加で使用できます。

    • Data Intelligence Platform には、データの視覚化を構築し、知見を共有するための ダッシュボード も用意されています。

  • 統合

    • Databricks プラットフォームは、 ユーザー管理シングルサインオン (SSO) のための標準 ID プロバイダーと統合されています。

    • OpenAILangChainHuggingFace などの外部 AI サービスは、Databricks Intelligence Platform 内から直接使用できます。

    • 外部オーケストレーターは、包括的な REST API を使用するか、 Apache Airflow などの外部オーケストレーション ツールへの専用コネクタを使用できます。

    • Unity Catalogは、Databricks Intelligence PlatformのすべてのデータおよびAIのガバナンスに使用され、レイクハウスフェデレーション を通じて他のデータベースをガバナンスに統合できます。

      さらに、Unity Catalog は他のエンタープライズ カタログに統合できます。 詳細については、エンタープライズ カタログ ベンダーにお問い合わせください。

すべてのワークロードに共通の機能

さらに、Databricksレイクハウスには、すべてのワークロードをサポートする管理機能が付属しています。

  • データとAIのガバナンス

    Databricks Data Intelligence Platform の中心的なデータと AI ガバナンスシステムは、 Unity Catalog です。 Unity Catalog は、すべてのワークスペースに適用され、テーブル、ボリューム、特徴量 (フィーチャ ストア)、モデル (モデルレジストリ) など、レイクハウスで作成または使用されるすべての資産をサポートするデータ アクセス ポリシーを 1 か所で管理します。 Unity Catalogは、 Databricksで実行されるクエリ間でランタイム データリネージをキャプチャ するためにも使用できます。

    Databricksのレイクハウスモニタリング を使用すると、アカウント内のすべてのテーブルのデータ品質をモニタリングできます。 また、 機械学習モデルとモデルサービングエンドポイントのパフォーマンスを追跡することもできます。

    システムテーブル は、可観測性のためにDatabricksがホストするアカウントの運用データの分析ストアです。 システムテーブルは、アカウント全体の履歴オブザーバビリティに使用できます。

  • データインテリジェンスエンジン

    Databricks Data Intelligence Platformは、組織全体がデータとAIを使用し、生成AIとレイクハウスの統合の利点を組み合わせて、データのユニークなセマンティクスを理解することができます。「Databricks AI を利用した機能」を参照してください。

    この Databricks Assistant は、 Databricks ノートブック、 SQL エディター、ファイルエディターなど、ユーザー向けのコンテキスト対応 AI アシスタントとして使用できます。

  • オートメーション&オーケストレーション

    Databricks ジョブは、Databricks Data Intelligence Platform でデータ処理、機械学習、アナリティクス パイプラインを調整します。DLT を使用すると、信頼性が高く保守性に優れた ETL パイプラインを宣言型構文で構築できます。 このプラットフォームは、CI/CDMLOps もサポートしています

AWS 上の Data Intelligence Platform の高レベルのユースケース

を使用した とデータベースからの組み込みインジェストSaaSLakeFlow Connect

Databricks on AWSでのLFCによる取り込み。

ダウンロード:LakeFlow Connect の リファレンス アーキテクチャDatabricks on AWS

Databricks LakeFlow Connect には、エンタープライズ アプリケーションやデータベースから取り込むための組み込みコネクタが用意されています。結果として得られるインジェスト パイプラインは Unity Catalog によって制御され、サーバレス コンピュートと DLTによって駆動されます。LakeFlow Connect は、効率的な増分読み取りと書き込みを活用して、データ取り込みをより速く、スケーラブルで、コスト効率を高めながら、データを最新のままダウンストリームで消費できるようにします。

バッチ取り込みとETL

Databricks on AWSにおけるバッチ ETL リファレンス アーキテクチャ。

ダウンロード:Databricks on AWSのバッチETLリファレンスアーキテクチャ

インジェスト ツールは、ソース固有のアダプターを使用してソースからデータを読み取り、 Auto Loader 読み取り可能なクラウド上のストレージに格納するか、 Databricks を直接呼び出します (たとえば、パートナー インジェスト ツールを Databricks レイクハウスに統合します)。 データを読み込むために、Databricks ETL と処理エンジンは DLT を介してクエリを実行します。シングルタスクまたはマルチタスクのワークフローは、 Databricks ジョブ によってオーケストレーションされ、 Unity Catalog (アクセス制御、監査、リネージなど)によって管理されます。 低レイテンシの運用システム用に特定のゴールデンテーブルへのアクセスを提供するには、ETL パイプラインの最後にある RDBMS やキー値ストアなどの運用データベースにテーブルをエクスポートします。

ストリーミング and チェンジデータキャプチャ (CDC)

Databricks on AWSのSpark構造化ストリーミング アーキテクチャ。

ダウンロード:Databricks on AWSのSpark構造化ストリーミングアーキテクチャ

DatabricksETLエンジンSparkApacheKafkaAWSKinesis、 や などのイベント キューから読み取るための構造化ストリーミングダウンストリームの手順は、上記のバッチのユースケースのアプローチに従います。

リアルタイム チェンジデータキャプチャ (CDC) は、通常、イベント キューを使用して抽出されたイベントを格納します。 そこから、ユースケースはストリーミングのユースケースに従います。

CDCがバッチで実行され、ずクラウドストレージに保存される場合、Databricks Autoloaderはそれらを読み込むことができ、ユースケースはバッチETLに従います。

機械学習と AI (従来型)

Databricks on AWSにおける機械学習とAIのリファレ��ンスアーキテクチャ

ダウンロード:Databricks on AWSの機械学習およびAIリファレンスアーキテクチャ

機械学習については、Databricks Data Intelligence Platform が Mosaic AI を提供し、最先端の 機械学習ライブラリとディープラーニングライブラリが付属しています。Feature StoreModel Registry (どちらもUnity Catalogに統合)、AutoML付きローコード機能、データサイエンスライフサイクルへのMLflow統合などの機能を提供します。

すべてのデータサイエンス関連のアセット (テーブル、機能、モデル) はUnity Catalogによって管理され、data scientists ジョブDatabricksを使用してジョブを調整できます。

スケーラブルでエンタープライズ グレードの方法でモデルをデプロイするには、 MLOps 機能を使用してモデルをモデル サービングにパブリッシュします。

AIエージェントアプリケーション(Gen AI)

Databricks on AWSにおける生成AI アプリケーション参照アーキテクチャ

ダウンロード: Databricks on AWSにおける生成AIアプリケーションのリファレンスアーキテクチャ

生成AI ユースケースのために、Mosaic AI には最先端のライブラリと、プロンプトエンジニアリングからAIAIエージェントの構築、既存モデルのファインチューニングまで、特定の Gen 機能 が付属しています。上記のアーキテクチャは、 ベクトル検索 を Gen AI エージェントに統合する方法の例を示しています。

スケーラブルでエンタープライズグレードの方法でモデルをデプロイするには、MLOps機能を使用してモデルサービングでモデルを公開します。

BI and SQL アナリティクス

Databricks on AWSにおけるBI および SQL アナリティクス リファレンス アーキテクチャ

ダウンロード:Databricks on AWSのBIおよびSQLアナリティクスのリファレンスアーキテクチャ

BI のユースケースでは、ビジネスアナリストは ダッシュボードDatabricks SQL エディター 、または Tableau や Amazon QuickSight などの BI ツール を使用できます。いずれの場合も、エンジンは Databricks SQL (サーバレスまたは非サーバレス) であり、 Unity Catalog がデータディスカバリー、探索、リネージ、およびアクセス制御を提供します。

レイクハウス連合

Databricks on AWSにおけるレイクハウス フェデレーション リファレンス アーキテクチャ。

ダウンロード: Databricks on AWSのレイクハウスフェデレーションリファレンスアーキテクチャ

レイクハウスフェデレーション を使用すると、外部データのSQLデータベース(MySQL、Postgres、Redshiftなど)をDatabricksと統合できます。

最初にデータをオブジェクトストレージにETLする必要がなく、すべてのワークロード (AI、DWH、BI) がこのメリットを享受できます。外部ソースカタログはUnity Catalogにマッピングされ、Databricksプラットフォーム経由のアクセスにきめ細かいアクセス制御を適用できます。

カタログのフェデレーション

Databricks on AWSのカタログ統合参照アーキテクチャ

ダウンロード: Databricks on AWS のカタログ統合参照アーキテクチャ

カタログフェデレーション を使用すると、外部の Hive メタストア (MySQL、Postgres、Redshift など) または Amazon Glue を Databricks と統合できます。

すべてのワークロード(AI、DWH、BI)は、最初にデータをオブジェクトストレージにETLしなくても、このメリットを享受できます。外部ソース カタログは、Unity Catalog プラットフォームを介してきめ細かなアクセス制御が適用されるDatabricks に追加されます。

サードパーティのツールとデータを共有する

Databricks on AWSにおける企業データ共有のリファレンスアーキテクチャ。

ダウンロード: 3rd パーティ ツールとのデータ共有: Databricks on AWS のリファレンス アーキテクチャ

第三者とのエンタープライズグレードのデータ共有は、 Delta Sharingによって提供されます。これにより、Unity Catalog によって保護されたオブジェクト ストア内のデータに直接アクセスできます。この機能は、データ製品を交換するためのオープンフォーラムである Databricks Marketplace でも使用されます。

Databricks から共有データを使用する

Databricks for Databricks on AWSから共有データを使用します。

ダウンロード: の参照アーキテクチャから共有データを使用するDatabricksDatabricks on AWS

Delta Sharing Databricks-to-Databricksプロトコルを使用すると、Unity Catalogが有効になっているワークスペースにアクセスできるユーザーであれば、アカウントやクラウドホストに関係なく、任意のDatabricksユーザーとデータを安全に共有できます。

この記事は役に立ちましたか?