レイクハウスのリファレンス アーキテクチャをダウンロードする
この記事では、データ ソース、取り込み、変換、クエリと処理、提供、分析/出力、ストレージに関するレイクハウスのアーキテクチャ ガイダンスについて説明します。
各リファレンス・アーキテクチャには、11 x 17 (A3) 形式のダウンロード可能な PDF があります。
参照アーキテクチャの構成
リファレンス アーキテクチャは、ソース、取り込み、変換、クエリと処理、提供、分析、およびストレージのスイム レーンに沿って構造化されています。
ソース
このアーキテクチャでは、半構造化データと非構造化データ (センサーと IoT、メディア、ファイル/ログ) と構造化データ (RDBMS、ビジネス アプリケーション) が区別されます。 SQL ソース (RDBMS) は、 レイクハウス フェデレーションUnity Catalog を通じて ETL なしでレイクハウスと に統合することもできます。さらに、データは他のクラウド プロバイダーからロードされる場合があります。
取り込み
データはバッチまたはストリーミング経由でレイクハウスに取り込むことができます。
クラウド ストレージに配信されたファイルは、Databricks Auto Loaderを使用して直接ロードできます。
エンタープライズ アプリケーションからDelta Lakeへのデータのバッチ取り込みの場合、 Databricks レイクハウスは、これらの記録システム用の特定のアダプターを備えたパートナー取り込みツールに依存しています。
ストリーミング イベントは、Databricks構造化ストリーミングを使用して、Kafka などのイベント ストリーミング システムから直接取り込むことができます。 ストリーミング ソースは、センサー、IoT、または変更データ キャプチャプロセスです。
ストレージ
通常、データはクラウド上のストレージ システムに保存されます。ETL パイプラインはメダリオンアーキテクチャを使用して、データをDeltaファイル/テーブルとして厳選された方法で保存します。
変換 と クエリと処理
Databricks レイクハウスは、すべての変換とクエリにエンジンApache SparkとPhotonを使用します。
宣言型フレームワーク DLT ( Delta Live Tables ) はそのシンプルさにより、信頼性が高く、保守可能で、テスト可能なデータ処理パイプラインを構築するのに適しています。
Apache Spark と Photon を活用した Databricks Data Intelligence Platform は、 SQL ウェアハウスを介した SQL クエリと、ワークスペースクラスターを介した SQL、Python、Scala ワークロードの両方のタイプのワークロードをサポートします。
データサイエンス (機械学習モデリングとGen AI ) の場合、Databricks AI および機械学習プラットフォームは、 AutoMLと機械学習ジョブのコーディングに特化した機械学習ランタイムを提供します。 すべてのデータサイエンスおよびMLOps ワークフローは、 MLflowによって最適にサポートされます。
提供
DWH および BI のユースケースの場合、Databricks レイクハウスは、 SQL ウェアハウス および サーバレス SQL ウェアハウスを利用したデータウェアハウスである Databricks SQL を提供します。
機械学習の場合、モデルサービングは、 Databricks コントロール プレーンでホストされるスケーラブルなリアルタイムのエンタープライズ グレードのモデルサービング機能です。
運用データベース: 運用データベースなどの外部システムを使用して、最終データ製品を保存し、ユーザー アプリケーションに配信できます。
コラボレーション: ビジネス パートナーは、 Delta Sharingを通じて必要なデータに安全にアクセスできます。 Delta Sharingに基づいたDatabricks Marketplace 、データ製品を交換するためのオープン フォーラムです。
分析
最終的なビジネスアプリケーションは、このスイムレーンにあります。 例には、リアルタイム推論のためにDatabricks モデルサービングに接続された AI アプリケーションや、レイクハウスから運用データベースにプッシュされたデータにアクセスするアプリケーションなどのカスタム クライアントが含まれます。
BI のユースケースでは、アナリストは通常、 BI ツールを使用してデータウェアハウスにアクセスします。 SQL 開発者は、クエリとダッシュボードにDatabricks SQL エディター(図には示されていません) をさらに使用できます。
データ インテリジェンス プラットフォームは、データの視覚化を構築し、知見を共有するためのダッシュボードも提供します。
ワークロードの機能
さらに、Databricks レイクハウスには、すべてのワークロードをサポートする管理機能が付属しています。
データとAIのガバナンス
Databricks Data Intelligence Platform の中心となるデータおよび AI ガバナンス システムはUnity Catalogです。 Unity Catalogすべてのワークスペースに適用されるデータ アクセス ポリシーを管理する単一の場所を提供し、テーブル、ボリューム、機能 (Feature Store )、モデル (モデルレジストリ) など、レイクハウスで作成または使用されるすべてのアセットをサポートします。 Unity Catalog を使用して、Databricks で実行されるクエリ全体でランタイム データ リネージをキャプチャすることもできます。
Databricks レイクハウスモニタリングを使用すると、アカウント内のすべてのテーブルのデータの品質を監視できます。 また、機械学習モデルやモデルサービング エンドポイントのパフォーマンスを追跡することもできます。
可観測性に関しては、システムテーブルはアカウントの運用データを保存するための、 Databricksがホストする分析ストアです。 システムテーブルは、アカウント全体の履歴を観察するために使用できます。
データインテリジェンスエンジン
Databricks Data Intelligence Platform を使用すると、組織全体でデータと AI を使用できるようになります。 DatabricksIQを利用しており、生成 AI とレイクハウスの統合メリットを組み合わせて、データの固有のセマンティクスを理解します。
Databricks アシスタントは、開発者向けのコンテキスト認識 AI アシスタントとして、Databricks ノートブック、SQL エディター、およびファイル エディターで利用できます。
オーケストレーション
Databricks Workflows Databricks Data Intelligence Platform のデータ処理、機械学習、アナリティクス パイプラインを調整します。 ワークフローには、Databricks ワークスペースで非対話型コードを実行するDatabricks ジョブや、信頼性が高く保守可能な ETL パイプラインを構築するDelta Live Tablesなど、Databricks プラットフォームに統合されたフルマネージド オーケストレーション サービスがあります。
AWS 上のデータ インテリジェンス プラットフォームのリファレンス アーキテクチャ
AWS リファレンス アーキテクチャは、ソース、取り込み、提供、分析、およびストレージ要素に対する AWS 固有のサービスを追加することによって、汎用リファレンス アーキテクチャから派生します。
ダウンロード: AWS 上の Databricks レイクハウスのリファレンス アーキテクチャ
AWS リファレンス アーキテクチャには、取り込み、ストレージ、提供、分析/出力のための次の AWS 固有のサービスが示されています。
レイクハウスフェデレーションのソースとしての Amazon Redshift
バッチ取り込み用の Amazon AppFlow と AWS Glue
ストリーミング取り込み用の AWS IoT Core、Amazon Kinesis、および AWS DMS
オブジェクトストレージとしての Amazon S3
運用データベースとしての Amazon RDS と Amazon DynamoDB
BI ツールとしての Amazon QuickSight
主要な AI スタートアップと Amazon の基盤モデルへの統合 API としての Amazon Bedrock
注:
このリファレンス アーキテクチャのビューは、AWS サービスと Databricks レイクハウスのみに焦点を当てています。 Databricks のレイクハウスは、パートナー ツールの大規模なエコシステムと統合されるオープン プラットフォームです。
示されているクラウド プロバイダー サービスはすべてを網羅しているわけではありません。 これらは、概念を説明するために選択されます。
使用例: バッチ ETL
ダウンロード: Databricks on AWSのバッチ ETL リファレンス アーキテクチャ
取り込みツールは、ソース固有のアダプターを使用してソースからデータを読み取り、Auto Loader がそれを読み取ることができるクラウド上のストレージに保存するか、Databricks を直接呼び出します (たとえば、Databricks レイクハウスに統合されたパートナー取り込みツールを使用します)。 データをロードするために、Databricks ETL と処理エンジンが DLT 経由でクエリを実行します。 単一タスクまたはマルチタスクのジョブは、Databricks ワークフローによって調整され、 Unity Catalog (アクセス制御、監査、リネージなど) によって管理できます。 低レイテンシーの運用システムが特定のゴールデン テーブルにアクセスする必要がある場合、ETL パイプラインの最後にある RDBMS やキー/値ストアなどの運用データベースにエクスポートできます。
使用例: ストリーミングと変更データキャプチャ (CDC)
ダウンロード: Databricks on AWS用の Spark 構造化ストリーミング アーキテクチャ
Apache Kafka や AWS Kinesis などのイベント キューから読み取る Databricks ETL エンジン Spark 構造化ストリーミング。 下流のステップは、上記のバッチ使用例のアプローチに従います。
リアルタイム チェンジデータ キャプチャ (CDC) は通常、イベント キューを使用して、抽出されたイベントを保存します。 そこから、ユースケースはストリーミングのユースケースに従います。
CDC がバッチで実行され、抽出されたレコードが最初にクラウド ストレージに保存される場合、Databricks Autoloader はそれらを読み取ることができ、ユースケースはバッチ ETL に従います。
ユースケース: 機械学習と AI
ダウンロード: Databricks on AWSの機械学習と AI リファレンス アーキテクチャ
機械学習用に、Databricks Data Intelligence Platform は、最先端のマシンとディープラーニング ライブラリを備えた Mosaic AI を提供します。 これは、Feature Store やモデル レジストリ (両方とも Unity Catalog に統合)、AutoML によるローコード機能、データ サイエンス ライフサイクルへの MLflow 統合などの機能を提供します。
すべてのデータサイエンス関連の資産 (テーブル、機能、モデル) は Unity Catalog によって管理され、データサイエンティストはDatabricks Workflowsを使用してジョブを調整できます。
スケーラブルでエンタープライズ グレードの方法でモデルを展開するには、MLOps 機能を使用してモデルをモデルサービングで公開します。
ユースケース: 検索拡張生成 (Gen AI)
ダウンロード: Databricks on AWS用 Gen AI RAG リファレンス アーキテクチャ
生成 AI のユースケース向けに、Mosaic AI には最先端のライブラリと、迅速なエンジニアリングから既存モデルの微調整、ゼロからの事前トレーニングまでの特定の Gen AI 機能が付属しています。 上記のアーキテクチャは、ベクトル検索を統合して RAG (検索拡張生成) AI アプリケーションを作成する方法の例を示しています。
スケーラブルでエンタープライズ グレードの方法でモデルを展開するには、MLOps 機能を使用してモデルをモデルサービングで公開します。
ユースケース: BI と SQL アナリティクス
ダウンロード: Databricks on AWSの BI および SQL アナリティクス リファレンス アーキテクチャ
BI ユースケースでは、ビジネスアナリストはダッシュボード、Databricks SQL エディター、または Tableau や Amazon QuickSight などの特定の BI ツールを使用できます。 いずれの場合も、エンジンはDatabricks SQL (サーバレスまたは非サーバレス) であり、データディスカバリー、探索、リネージ、アクセス制御はUnity Catalogによって提供されます。
使用例: レイクハウス フェデレーション
ダウンロード: レイクハウスDatabricks on AWSフェデレーション リファレンス アーキテクチャ
レイクハウス フェデレーションを使用すると、外部データ SQL データベース (MySQL、Postgres、Redshift など) を Databricks と統合できます。
最初にデータをオブジェクト ストレージに ETL する必要がなく、すべてのワークロード (AI、DWH、BI) がこのメリットを享受できます。 外部ソース カタログは Unity Catalogにマッピングされ、Databricks プラットフォーム経由のアクセスにきめ細かいアクセス制御を適用できます。
ユースケース: エンタープライズデータ共有
ダウンロード: Databricks on AWSのエンタープライズ データ共有リファレンス アーキテクチャ
エンタープライズ グレードのデータ共有は、 Delta Sharingによって提供されます。 これは、Unity Catalog によって保護されたオブジェクト ストア内のデータへの直接アクセスを提供します。Databricks Marketplace は、データ製品を交換するためのオープン フォーラムです。