レイクハウスのリファレンス アーキテクチャをダウンロードする

この記事では、データ ソース、取り込み、変換、クエリと処理、提供、分析/出力、ストレージに関するレイクハウスのアーキテクチャ ガイダンスについて説明します。

各リファレンス・アーキテクチャには、11 x 17 (A3) 形式のダウンロード可能な PDF があります。

参照アーキテクチャの構成

リファレンス アーキテクチャは、ソース取り込み変換クエリと処理提供分析、およびストレージのスイム レーンに沿って構造化されています。

  • ソース

    このアーキテクチャでは、半構造化データと非構造化データ (センサーと IoT、メディア、ファイル/ログ) と構造化データ (RDBMS、ビジネス アプリケーション) が区別されます。 SQL ソース (RDBMS) は、 レイクハウス フェデレーションUnity Catalog を通じて ETL なしでレイクハウスと に統合することもできます。さらに、データは他のクラウド プロバイダーからロードされる場合があります。

  • 摂取する

    データはバッチまたはストリーミング経由でレイクハウスに取り込むことができます。

    • クラウド ストレージに配信されたファイルは、Databricks Auto Loaderを使用して直接ロードできます。

    • エンタープライズ アプリケーションからDelta Lakeへのデータのバッチ取り込みの場合、 Databricks レイクハウスは、これらの記録システム用の特定のアダプターを備えたパートナー取り込みツールに依存しています。

    • ストリーミング イベントは、Databricks構造化ストリーミングを使用して、Kafka などのイベント ストリーミング システムから直接取り込むことができます。 ストリーミング ソースは、センサー、IoT、または変更データ キャプチャプロセスです。

  • ストレージ

    通常、データはクラウド上のストレージ システムに保存されます。ETL パイプラインはメダリオンアーキテクチャを使用して、データをDeltaファイル/テーブルとして厳選された方法で保存します。

  • 変換クエリと処理

    Databricks レイクハウスは、すべての変換とクエリにエンジンApache SparkPhotonを使用します。

    宣言型フレームワーク DLT ( Delta Live Tables ) はそのシンプルさにより、信頼性が高く、保守可能で、テスト可能なデータ処理パイプラインを構築するのに適しています。

    Apache Spark と Photon を活用した Databricks Data Intelligence Platform は、 SQL ウェアハウスを介した SQL クエリと、ワークスペースクラスターを介した SQL、Python、Scala ワークロードの両方のタイプのワークロードをサポートします。

    データサイエンス (機械学習モデリングとGen AI ) の場合、Databricks AI および機械学習プラットフォームはAutoMLと機械学習ジョブのコーディングに特化した機械学習ランタイムを提供します。 すべてのデータサイエンスおよびMLOps ワークフローはMLflowによって最適にサポートされます。

  • 仕える

    DWH および BI のユースケースの場合、Databricks レイクハウスは、 SQL ウェアハウス および サーバレス SQL ウェアハウスを利用したデータウェアハウスである Databricks SQL を提供します。

    機械学習の場合、モデルサービングは、 Databricks コントロール プレーンでホストされるスケーラブルなリアルタイムのエンタープライズ グレードのモデルサービング機能です。

    運用データベース: 運用データベースなどの外部システムを使用して、最終データ製品を保存し、ユーザー アプリケーションに配信できます。

    コラボレーション: ビジネス パートナーは、 Delta Sharingを通じて必要なデータに安全にアクセスできます。 Delta Sharingに基づいたDatabricks Marketplace 、データ製品を交換するためのオープン フォーラムです。

  • 分析

    最終的なビジネスアプリケーションは、このスイムレーンにあります。 例には、リアルタイム推論のためにDatabricks モデルサービングに接続された AI アプリケーションや、レイクハウスから運用データベースにプッシュされたデータにアクセスするアプリケーションなどのカスタム クライアントが含まれます。

    BI のユースケースでは、アナリストは通常、 BI ツールを使用してデータウェアハウスにアクセスします。 SQL 開発者は、クエリとダッシュボードにDatabricks SQL エディター(図には示されていません) をさらに使用できます。

    データ インテリジェンス プラットフォームは、データの視覚化を構築し、知見を共有するためのダッシュボードも提供します。

ワークロードの機能

さらに、Databricks レイクハウスには、すべてのワークロードをサポートする管理機能が付属しています。

  • データとAIのガバナンス

    Databricks Data Intelligence Platform の中心となるデータおよび AI ガバナンス システムはUnity Catalogです。 Unity Catalogすべてのワークスペースに適用されるデータ アクセス ポリシーを管理する単一の場所を提供し、テーブル、ボリューム、機能 (Feature Store )、モデル (モデルレジストリ) など、レイクハウスで作成または使用されるすべてのアセットをサポートします。 Unity Catalog を使用して、Databricks で実行されるクエリ全体でランタイム データ リネージをキャプチャすることもできます。

    Databricks レイクハウスモニタリングを使用すると、アカウント内のすべてのテーブルのデータの品質を監視できます。 また、機械学習モデルやモデルサービング エンドポイントのパフォーマンスを追跡することもできます。

    可観測性を実現するために、 システムテーブルは、 Databricks がホストするアカウントの運用データの分析ストアです。 システムテーブルは、アカウント全体の履歴を監視するために使用できます。

  • データインテリジェンスエンジン

    Databricks Data Intelligence Platform を使用すると、組織全体でデータと AI を使用できるようになります。 DatabricksIQを利用しており、生成 AI とレイクハウスの統合メリットを組み合わせて、データの固有のセマンティクスを理解します。

    Databricks アシスタントは、開発者向けのコンテキスト認識 AI アシスタントとして、Databricks ノートブック、SQL エディター、およびファイル エディターで利用できます。

  • オーケストレーション

    Databricks Workflows Databricks Data Intelligence Platform のデータ処理、機械学習、アナリティクス パイプラインを調整します。 ワークフローには、Databricks ワークスペースで非対話型コードを実行するDatabricks ジョブや、信頼性が高く保守可能な ETL パイプラインを構築するDelta Live Tablesなど、Databricks プラットフォームに統合されたフルマネージド オーケストレーション サービスがあります。

AWS 上のデータ インテリジェンス プラットフォームのリファレンス アーキテクチャ

AWS リファレンス アーキテクチャは、ソース、取り込み、提供、分析、およびストレージ要素に対する AWS 固有のサービスを追加することによって、汎用リファレンス アーキテクチャから派生します。

AWS 上の Databricks レイクハウスのリファレンス アーキテクチャ

ダウンロード: AWS 上の Databricks レイクハウスのリファレンス アーキテクチャ

AWS リファレンス アーキテクチャには、取り込み、ストレージ、提供、分析/出力のための次の AWS 固有のサービスが示されています。

  • レイクハウスフェデレーションのソースとしての Amazon Redshift

  • バッチ取り込み用の Amazon AppFlow と AWS Glue

  • ストリーミング取り込み用の AWS IoT Core、Amazon Kinesis、および AWS DMS

  • オブジェクトストレージとしての Amazon S3

  • 運用データベースとしての Amazon RDS と Amazon DynamoDB

  • BI ツールとしての Amazon QuickSight

  • 主要な AI スタートアップと Amazon の基盤モデルへの統合 API としての Amazon Bedrock

注:

  • このリファレンス アーキテクチャのビューは、AWS サービスと Databricks レイクハウスのみに焦点を当てています。 Databricks のレイクハウスは、パートナー ツールの大規模なエコシステムと統合されるオープン プラットフォームです。

  • 示されているクラウド プロバイダー サービスはすべてを網羅しているわけではありません。 これらは、概念を説明するために選択されます。

使用例: バッチ ETL

Databricks on AWSのバッチ ETL リファレンス アーキテクチャ

ダウンロード: Databricks on AWSのバッチ ETL リファレンス アーキテクチャ

取り込みツールは、ソース固有のアダプターを使用してソースからデータを読み取り、Auto Loader がそれを読み取ることができるクラウド上のストレージに保存するか、Databricks を直接呼び出します (たとえば、Databricks レイクハウスに統合されたパートナー取り込みツールを使用します)。 データをロードするために、Databricks ETL と処理エンジンが DLT 経由でクエリを実行します。 単一タスクまたはマルチタスクのジョブは、Databricks ワークフローによって調整され、 Unity Catalog (アクセス制御、監査、リネージなど) によって管理できます。 低レイテンシーの運用システムが特定のゴールデン テーブルにアクセスする必要がある場合、ETL パイプラインの最後にある RDBMS やキー/値ストアなどの運用データベースにエクスポートできます。

使用例: ストリーミングと変更データキャプチャ (CDC)

Databricks on AWS上の Spark 構造化ストリーミング アーキテクチャ

ダウンロード: Databricks on AWS用の Spark 構造化ストリーミング アーキテクチャ

Apache Kafka や AWS Kinesis などのイベント キューから読み取る Databricks ETL エンジン Spark 構造化ストリーミング。 下流のステップは、上記のバッチ使用例のアプローチに従います。

リアルタイム チェンジデータ キャプチャ (CDC) は通常、イベント キューを使用して、抽出されたイベントを保存します。 そこから、ユースケースはストリーミングのユースケースに従います。

CDC がバッチで実行され、抽出されたレコードが最初にクラウド ストレージに保存される場合、Databricks Autoloader はそれらを読み取ることができ、ユースケースはバッチ ETL に従います。

ユースケース: 機械学習と AI

Databricks on AWSの機械学習と AI リファレンス アーキテクチャ

ダウンロード: Databricks on AWSの機械学習と AI リファレンス アーキテクチャ

機械学習用に、Databricks Data Intelligence Platform は、最先端のマシンとディープラーニング ライブラリを備えた Mosaic AI を提供します。 これは、Feature Store やモデル レジストリ (両方とも Unity Catalog に統合)、AutoML によるローコード機能、データ サイエンス ライフサイクルへの MLflow 統合などの機能を提供します。

すべてのデータサイエンス関連の資産 (テーブル、機能、モデル) は Unity Catalog によって管理され、データサイエンティストはDatabricks Workflowsを使用してジョブを調整できます。

スケーラブルでエンタープライズ グレードの方法でモデルを展開するには、MLOps 機能を使用してモデルをモデルサービングで公開します。

ユースケース: 検索拡張生成 (Gen AI)

Databricks on AWSの Gen AI RAG リファレンス アーキテクチャ

ダウンロード: Databricks on AWS用 Gen AI RAG リファレンス アーキテクチャ

生成 AI のユースケース向けに、Mosaic AI には最先端のライブラリと、迅速なエンジニアリングから既存モデルの微調整、ゼロからの事前トレーニングまでの特定の Gen AI 機能が付属しています。 上記のアーキテクチャは、ベクトル検索を統合して RAG (検索拡張生成) AI アプリケーションを作成する方法の例を示しています。

スケーラブルでエンタープライズ グレードの方法でモデルを展開するには、MLOps 機能を使用してモデルをモデルサービングで公開します。

ユースケース: BI と SQL アナリティクス

Databricks on AWSの BI および SQL アナリティクスのリファレンス アーキテクチャ

ダウンロード: Databricks on AWSの BI および SQL アナリティクス リファレンス アーキテクチャ

BI ユースケースでは、ビジネスアナリストはダッシュボード、Databricks SQL エディター、または Tableau や Amazon QuickSight などの特定の BI ツールを使用できます。 いずれの場合も、エンジンはDatabricks SQL (サーバレスまたは非サーバレス) であり、データディスカバリー、探索、リネージ、アクセス制御はUnity Catalogによって提供されます。

使用例: レイクハウス フェデレーション

レイクハウスDatabricks on AWSフェデレーション リファレンス アーキテクチャ

ダウンロード: レイクハウスDatabricks on AWSフェデレーション リファレンス アーキテクチャ

レイクハウス フェデレーションを使用すると、外部データ SQL データベース (MySQL、Postgres、Redshift など) を Databricks と統合できます。

最初にデータをオブジェクト ストレージに ETL する必要がなく、すべてのワークロード (AI、DWH、BI) がこのメリットを享受できます。 外部ソース カタログは Unity カタログにマッピングされ、Databricks プラットフォーム経由のアクセスにきめ細かいアクセス制御を適用できます。

ユースケース: エンタープライズデータ共有

Databricks on AWSのエンタープライズ データ共有リファレンス アーキテクチャ

ダウンロード: Databricks on AWSのエンタープライズ データ共有リファレンス アーキテクチャ

エンタープライズ グレードのデータ共有は、 Delta Sharingによって提供されます。 これは、Unity Catalog によって保護されたオブジェクト ストア内のデータへの直接アクセスを提供します。Databricks Marketplace は、データ製品を交換するためのオープン フォーラムです。