レイクハウスのリファレンスアーキテクチャ (ダウンロード)

この記事では、データソース、インジェスト、変換、クエリと処理、サービング、分析、ストレージに関するレイクハウスのアーキテクチャ ガイダンスについて説明します。

各リファレンスアーキテクチャは、11 x 17(A3)フォーマットのPDFをダウンロードできます。

Databricks のレイクハウスは、 パートナーツールの大規模なエコシステムと統合するオープンプラットフォームですが、リファレンスアーキテクチャは AWS サービスと Databricks レイクハウスのみに焦点を当てています。 示されているクラウド プロバイダー サービスは、概念を説明するために選択されており、すべてを網羅しているわけではありません。

AWS 上の Databricks レイクハウスのリファレンスアーキテクチャ。

ダウンロード:AWS上のDatabricksレイクハウスのリファレンスアーキテクチャ

AWS リファレンスアーキテクチャは、取り込み、保存、サービス、および分析のための次の AWS 固有のサービスを示しています。

  • レイクハウスフェデレーションのソースとしてのAmazon Redshift

  • バッチ取り込み用のAmazon AppFlowとAWS Glue

  • AWS IoT Core、Amazon Kinesis、AWS DMSによるストリーミング取り込み

  • オブジェクトストレージとしてのAmazon S3

  • 運用データベースとしてのAmazon RDSとAmazon DynamoDB

  • BIツールとしてのAmazon QuickSight

  • Amazon Bedrockは、主要なAIスタートアップとAmazonが提供する基盤モデルへの統合APIです。

リファレンスアーキテクチャの構成

参照アーキテクチャは、 ソースインジェスト変換クエリ/プロセスサーブ分析ストレージのスイムレーンに沿って構成されています。

  • ソース

    このアーキテクチャでは、半構造化データ、非構造化データ(センサーとIoT、メディア、ファイル/ログ)と構造化データ(RDBMS、ビジネスアプリケーション)を区別します。SQLソース(RDBMS)は、レイクハウスフェデレーションによってETLなしでレイクハウスとUnity Catalogに統合することもできます。さらに、他のクラウドプロバイダーからデータがロードされる場合もあります。

  • インジェスト

    データはバッチまたはストリーミング経由でレイクハウスに取り込むことができます。

    • Databricks LakeFlow Connect には、エンタープライズ アプリケーションやデータベースから取り込むための組み込みコネクタが用意されています。 結果として得られるインジェスト パイプラインは Unity Catalog によって制御され、サーバレス コンピュートと Delta Live Tablesによって駆動されます。

  • ストレージ

    データは通常クラウドストレージシステムに保存され、ETLパイプラインはメダリオンアーキテクチャを使用して、データをデルタファイル/テーブルとしてキュレーションされた方法で保存します。

  • 変換クエリ/プロセス

    Databricksレイクハウスは、すべての変換とクエリに Apache SparkPhotonのエンジンを使用します。

    DLT(Delta Live Tables)は、信頼性、保守性、テスト性に優れたデータ処理パイプラインを簡素化および最適化するための宣言型フレームワークです。

    Apache SparkとPhotonを搭載したDatabricksデータインテリジェンスプラットフォームは、SQLウェアハウス経由のSQLクエリと、ワークスペースクラスタリング経由のSQL、Python、Scalaワークロードという両方のタイプのワークロードをサポートします。

    データサイエンス(機械学習モデリングとGen AI)の場合、Databricks AIおよび機械学習プラットフォームはAutoML学習と機械学習ジョブのコーディングに特化した機械学習ランタイムを提供します。すべてのデータサイエンスとMLOpsワークフローは、MLflowによって最適なサポートを受けます。

  • サービング

    DWH と BI のユースケースでは、Databricks レイクハウスは、Databricks SQL と、SQL ウェアハウスを利用したデータウェアハウス、そしてサーバーレス SQL ウェアハウスを提供します。

    機械学習の場合、 モデルサービング は、Databricks コントロールプレーンでホストされるスケーラブルでリアルタイムのエンタープライズグレードのモデルサービング機能です。 Mosaic AI Gateway はDatabricksサポートされている生成AIモデルとそれに関連するモデルサービング エンドポイントへのアクセスを管理および監視するためのソリューションです。

    運用データベース:運用データベースなどの外部システムを使用して、最終データ製品を保存してユーザーアプリケーションに提供できます。

    コラボレーション:ビジネスパートナーは、Delta Sharingを通じて必要なデータに安全にアクセスできます。Delta Sharingを基盤とするDatabricks Marketplaceは、データ製品を交換するためのオープンフォーラムです。

  • 分析

    最終的なビジネスアプリケーションはこのスイムレーンにあります。例えば、リアルタイム推論のためにMosaic AI Model Servingに接続されたAIアプリケーションや、レイクハウスから運用データベースにプッシュされたデータにアクセスするアプリケーションなどのカスタムクライアントがあります。

    BIのユースケースでは、アナリストは通常、BIツールを使用してデータウェアハウスにアクセスします。SQL開発者は、クエリやダッシュボード作成にDatabricks SQLエディタ(図には示されていません)を使用することもできます。

    また、データインテリジェンスプラットフォームは、データを視覚化して知見を共有するためのダッシュボードも提供します。

  • 統合

    • OpenAILangChainHuggingFace などの外部 AI サービスは、Databricks Intelligence Platform 内から直接使用できます。

    • 外部オーケストレーターは、包括的な REST API を使用するか、 Apache Airflow などの外部オーケストレーション ツールへの専用コネクタを使用できます。

    • Unity CatalogAIは、Databricks Intelligence Platformのすべてのデータおよび ガバナンスに使用され、 レイクハウスフェデレーション を通じて他のデータベースをガバナンスに統合できます。

      さらに、Unity Catalog は他のエンタープライズ カタログに統合できます。 詳細については、エンタープライズ カタログ ベンダーにお問い合わせください。

すべてのワークロードに共通の機能

さらに、Databricksレイクハウスには、すべてのワークロードをサポートする管理機能が付属しています。

  • データとAIのガバナンス

    Databricks Data Intelligence Platformの中心となるデータおよびAIガバナンスシステムがUnity Catalogです。Unity Catalogは、すべてのワークスペースに適用されるデータアクセスポリシーを管理する単一の場所を提供し、テーブル、ボリューム、フィーチャー(Feature Store)、モデル(モデルレジストリ)など、レイクハウスで作成または使用されるすべてのアセットをサポートします。Unity Catalogは、Databricks上で実行されたクエリ間のランタイムデータリネージをキャプチャするためにも使用できます。

    Databricks レイクハウスモニタリングを使用すると、アカウント内のすべてのテーブルのデータの品質を監視できます。また、機械学習モデルやモデルサービングエンドポイントのパフォーマンスを追跡することもできます。

    オブザーバビリティを確保するためのシステムテーブルは、Databricks がホストするアカウントの運用データの分析ストアです。システムテーブルは、アカウント全体の履歴の確認に使用できます。

  • データインテリジェンスエンジン

    Databricks Data Intelligence Platformは、組織全体でデータとAIを活用することを可能にします。DatabricksIQを搭載し、生成AIとレイクハウスの統合の利点を組み合わせて、データのユニークなセマンティクスを理解します。

    Databricks Assistantは、開発者向けのコンテキスト認識AIアシスタントとして、Databricksノートブック、SQLエディター、およびファイルエディターで利用できます。

  • オートメーション&オーケストレーション

    Databricks ジョブは、Databricks Data Intelligence Platform でデータ処理、機械学習、アナリティクス パイプラインを調整します。Delta Live Tables を使用すると、宣言型構文を使用して、信頼性と保守性に優れた ETL パイプラインを構築できます。 このプラットフォームは、CI/CDMLOps もサポートしています

AWS 上の Data Intelligence Platform の高レベルのユースケース

Databricks LakeFlow Connect には、エンタープライズ アプリケーションやデータベースから取り込むための組み込みコネクタが用意されています。 結果として得られるインジェスト パイプラインは Unity Catalog によって制御され、サーバレス コンピュートと Delta Live Tablesによって駆動されます。 LakeFlow Connect は、効率的な増分読み取りと書き込みを活用して、データ取り込みをより速く、スケーラブルで、コスト効率を高めながら、データを最新のままダウンストリームで消費できるようにします。

ユースケース:バッチETL

バッチ ETL リファレンス アーキテクチャ on Databricks on AWS.

ダウンロード:Databricks on AWSのバッチETLリファレンスアーキテクチャ

インジェスト ツールは、ソース固有のアダプターを使用してソースからデータを読み取り、 Auto Loaderが読み取ることができるクラウド上のストレージに保存するか、 Databricksを直接呼び出します (たとえば、 Databricksレイクハウスに統合されたパートナー インジェスト ツールを使用します)。 データをロードするために、Databricks ETL および処理エンジンは DLT を介してクエリを実行します。 シングルタスクまたはマルチタスクのワークフローは、 Databricksジョブによって調整され、 Unity Catalog (アクセス制御、監査、リネージなど) によって管理できます。 低レイテンシの運用システムが特定のゴールデン テーブルにアクセスする必要がある場合は、ETL パイプラインの最後にある RDBMS やキー値ストアなどの運用データベースにエクスポートできます。

ユースケース:ストリーミングと変更データキャプチャ(CDC)

Spark Databricks on AWSの構造化ストリーミング アーキテクチャ。

ダウンロード:Databricks on AWSのSpark構造化ストリーミングアーキテクチャ

Databricks ETLエンジンは、Spark構造化ストリーミングを使用して、Apache KafkaやAWS Kinesisなどのイベントキューから読み取ります。下流のステップは、上記のバッチのユースケースのアプローチに従います。

リアルタイム変更データキャプチャ(CDC)は通常、イベントキューを使用して抽出されたイベントを保存します。そこから、ユースケースはストリーミングのユースケースに従います。

CDCがバッチで実行され、ずクラウドストレージに保存される場合、Databricks Autoloaderはそれらを読み込むことができ、ユースケースはバッチETLに従います。

ユースケース:機械学習とAI

の機械学習と の参照アーキテクチャAIDatabricks on AWS

ダウンロード:Databricks on AWSの機械学習およびAIリファレンスアーキテクチャ

機械学習のために、Databricks Data Intelligence Platformは、最先端の機械学習とディープラーニングのライブラリを備えたMosaic AIを提供します。これは、Feature Storeやモデルレジストリ(いずれもUnity Catalogに統合)、AutoMLによるローコード機能、データサイエンスライフサイクルへのMLflow統合などの機能を提供します。

すべてのデータサイエンス関連の資産 (テーブル、機能、モデル) はUnity Catalogによって管理され、 data scientists Databricksジョブを使用してジョブを調整できます。

スケーラブルでエンタープライズグレードの方法でモデルをデプロイするには、MLOps機能を使用してモデルサービングでモデルを公開します。

ユースケース:検索拡張生成(生成AI)

Gen AI RAG リファレンス アーキテクチャ for Databricks on AWS.

ダウンロード:Databricks on Google Cloudの生成AI RAGリファレンスアーキテクチャ

生成AIのユースケース向けに、Mosaic AIは最先端のライブラリと、プロンプトエンジニアリングから既存モデルの微調整、ゼロからの事前学習まで、特定の生成AI機能を備えています。上記のアーキテクチャは、ベクトル検索を統合してRAG(検索拡張世代)AIアプリケーションを作成する方法の例を示しています。

スケーラブルでエンタープライズグレードの方法でモデルをデプロイするには、MLOps機能を使用してモデルサービングでモデルを公開します。

ユースケース:BIとSQL分析

BI および SQL アナリティクス リファレンス アーキテクチャ for Databricks on AWS.

ダウンロード:Databricks on AWSのBIおよびSQLアナリティクスのリファレンスアーキテクチャ

BIのユースケースでは、ビジネスアナリストはダッシュボード、Databricks SQLエディター、Tableau、Amazon QuickSightなどの特定のBIツールを使用できます。どの場合も、エンジンはDatabricks SQL(サーバレスまたは非サーバレス)であり、データディスカバリー、探索、リネージ、アクセス制御はUnity Catalogによって提供されます。

ユースケース:レイクハウスフェデレーション

レイクハウス フェデレーション リファレンス アーキテクチャ for Databricks on AWS.

ダウンロード: Databricks on AWSのレイクハウスフェデレーションリファレンスアーキテクチャ

レイクハウスフェデレーションでは、外部のデータSQLデータベース(MySQLやPostgresやRedshiftなど)をDatabricksと統合できます。

最初にデータをオブジェクトストレージにETLする必要がなく、すべてのワークロード (AI、DWH、BI) がこのメリットを享受できます。外部ソースカタログはUnity Catalogにマッピングされ、Databricksプラットフォーム経由のアクセスにきめ細かいアクセス制御を適用できます。

ユースケース:エンタープライズデータ共有

Enterprise データ共有 reference architecture for Databricks on AWS.

ダウンロード:Databricks on AWSのエンタープライズデータ共有リファレンスアーキテクチャ

エンタープライズグレードのデータ共有は、Delta Sharingによって提供されます。Unity Catalogで保護されたオブジェクトストア内のデータに直接アクセスでき、Databricks Marketplaceはデータ製品を交換するためのオープンフォーラムです。