レイクハウスプラットフォームのスコープ

最新のデータとAIプラットフォームフレームワーク

Databricksデータインテリジェンスプラットフォームの範囲について説明するには、まず最新のデータおよびAIプラットフォームの基本的なフレームワークを定義すると役立ちます。

クラウドデータ分析フレームワーク。

レイクハウススコープの概要

Databricksデータインテリジェンスプラットフォームは、最新のデータプラットフォームフレームワークに完全対応しています。レイクハウス上に構築されており、データの独自性を理解するためのデータインテリジェンスエンジンを搭載しています。これは、ETL、ML/AI、DWH/BIワークロード向けのオープンで統合された基盤であり、Unity Catalogを一元化データおよびAIガバナンスソリューションとして備えています。

プラットフォームフレームワークのペルソナ

このフレームワークは、フレームワーク内のアプリケーションを扱う主要なデータチームメンバー(ペルソナ)を対象としています。

  • データエンジニアは、データサイエンティストやビジネスアナリストに正確で再現性のあるデータを提供し、タイムリーな意思決定を行い、リアルタイムの知見が得られるようにします。一貫性と信頼性の高いETLプロセスを導入することで、データに対するユーザーの信頼と信用を高めています。データがビジネスのさまざまな柱とうまく統合されていることを確認し、通常はソフトウェアエンジニアリングのベストプラクティスに従います。

  • データサイエンティストは、分析の専門知識とビジネスの理解を組み合わせて、データを戦略的知見と予測モデルに変換します。彼らは、遡及的な分析的知見や将来を見据えた予測モデリングなどを通じて、ビジネス上の課題をデータ主導のソリューションに変換することに長けています。データモデリングと機械学習技術を活用して、データからパターン、傾向、予測を明らかにするモデルを設計、開発、展開します。これらは橋渡しの役割を果たし、複雑なデータの物語をわかりやすいストーリーに変換します。これにより、ビジネス関係者はデータに基づく推奨事項を理解するだけでなく、それに基づいて行動できるようになります。その結果、組織内の問題解決に対するデータ中心のアプローチが推進されます。

  • 機械学習エンジニア(機械学習エンジニア)は、機械学習モデルの構築や、デプロイ、メンテナンスを通じて、製品やソリューションにおけるデータサイエンスの実用化をリードします。彼らは、モデル開発と展開のエンジニアリングの側面に主な焦点を当てています。機械学習エンジニアは、実環境における機械学習システムの堅牢性、信頼性、拡張性を確保し、データ品質、インフラ、パフォーマンスに関する課題に取り組みます。AIや機械学習モデルを業務プロセスやユーザー向け製品に統合することで、ビジネス課題の解決におけるデータサイエンスの活用を促進し、モデルが研究だけにとどまることなく、具体的なビジネス価値をもたらすことを保証します。

  • ビジネスアナリストビジネスユーザー: ビジネスアナリストは、ステークホルダーとビジネスチームに実用的なデータを提供します。 多くの場合、データを解釈し、標準のBIツールを使用して管理用のレポートやその他のドキュメントを作成します。 通常、技術者以外のビジネスユーザーや運用担当者が分析に関する質問を迅速に行うための最初の窓口となります。 Databricksプラットフォーム上で提供されるダッシュボードとビジネスアプリは、ビジネスユーザーが直接使用できます。

  • ネットワーク化が進むビジネス界において、ビジネスパートナーは重要なステークホルダーです。ビジネスパートナーとは、共通の目標を達成するために企業が正式な関係を持つ企業または個人と定義されます。これにはベンダー、サプライヤー、代理店、その他の第三者パートナーが含まれます。データ共有はビジネスパートナーシップの重要な側面です。データの転送と交換を可能にすることで、コラボレーションとデータドリブンの意思決定が強化されます。

プラットフォームフレームワークのドメイン

プラットフォームは複数のドメインで構成されています。

  • ストレージ:クラウドでは、データは主に、クラウドプロバイダー上の、スケーラブルで効率的かつ復元力のあるオブジェクトストレージに保存されます。

  • ガバナンス:すべてのデータおよびAI資産のアクセス制御、監査、メタデータ管理、リネージトラッキング、モニタリングなど、データガバナンスに関する機能です。

  • AIエンジン:AIエンジンは、プラットフォーム全体に生成AI機能を提供します。

  • 取り込みと変換: ETL ワークロードの機能。

  • 高度なアナリティクス、 ML 、およびAI :学習、 AI 、生成AI 、および機械ストリーミング分析に関するすべての機能。

  • データウェアハウス: DWH およびBIユースケースをサポートするドメイン。

  • 自動化: データ処理、機械学習、アナリティクス パイプライン ( CI/CD および MLOps のサポートを含む) のワークフロー管理。

  • ETL & DSツール:データエンジニアや、データサイエンティスト、機械学習エンジニアが主に業務で使用するフロントエンドツール。

  • BIツール:BIアナリストが主に仕事に使用するフロントエンドツール。

  • コラボレーション:2人以上の関係者間でデータを共有する機能。

Databricksプラットフォームのスコープ

Databricks Data Intelligence Platformとそのコンポーネントは、次のようにフレームワークにマッピングできます。

レイクハウスの範囲の図。

ダウンロード:レイクハウスのスコープ - Databricksコンポーネント

Databricks上のデータワークロード

最も重要なことは、Databricks Data Intelligence Platformが、Apache Spark/Photonをエンジンとして、データ領域に関連するすべてのワークロードを1つのプラットフォームでカバーすることです。

  • 取り込みと変換

    Databricks では、データ取り込みの方法をいくつか提供しています。

    • Databricks LakeFlow Connect には、エンタープライズ アプリケーションやデータベースから取り込むための組み込みコネクタが用意されています。 結果として得られるインジェスト パイプラインは Unity Catalog によって制御され、サーバレス コンピュートと Delta Live Tablesによって駆動されます。

    • Auto Loader は、スケジュールされたジョブまたは継続的なジョブでクラウド ストレージに到着するファイルを段階的かつ自動的に処理します。状態情報を管理する必要はありません。 取り込んだ生データを変換して、BIとML/AIに対応できるようにする必要があります。 DatabricksETLは、データエンジニア、data scientists 、およびアナリスト向けの強力な 機能を提供します。

    Delta Live Tables (DLT) を使用すると、宣言的な方法でジョブETL書き込むことができ、実装プロセス全体が簡素化されます。データ品質は、 データの期待値を定義することで改善できます。

  • 高度な分析、ML、AI

    このプラットフォームには、Databricks Mosaic AI AIクラシックマシンとディープラーニング 用の完全に統合された機械学習および ツールのセットである 、 および生成AI および大規模言語モデル(LLM) が含まれています。データの準備から機械学習モデルやディープラーニングモデルの構築、Mosaic AI Model Servingまでのワークフロー全体をカバーしています。

    Spark構造化ストリーミングDLTにより、リアルタイムの分析が可能になります。

  • データウェアハウス

    Databricksデータインテリジェンスプラットフォームには、Databricks SQLを備えた完全なデータウェアハウスソリューションもあります。これはUnity Catalogで一元管理され、きめ細かなアクセス制御が可能です。

    AI 関数は 、SQL から直接データに AI を適用できる組み込みの SQL 関数です。AIを分析ワークフローに統合することで、アナリストはこれまでアクセスできなかった情報にアクセスできるようになり、データドリブンなイノベーションと効率性を通じて、より多くの情報に基づいた意思決定を行い、リスクを管理し、競争上の優位性を維持できるようになります。

Databricksの機能領域の概要

これは、Databricksデータインテリジェンスプラットフォームの機能を、フレームワークの他のレイヤーに下から上にマッピングしたものです。

  • クラウドストレージ

    レイクハウスのすべてのデータは、クラウド上でプロバイダーのオブジェクトストレージに保存されます。 Databricks は、AWS、Azure、GCP の 3 つのクラウドプロバイダーをサポートしています。 さまざまな構造化形式および半構造化形式 ( Parquet、 CSV、 JSON、 Avroなど) のファイル、および非構造化形式 (画像やドキュメントなど) のファイルは、バッチ プロセスまたはストリーミング プロセスを使用して取り込まれ、変換されます。

    Delta Lakeは、レイクハウス(ファイルトランザクション、信頼性、一貫性、更新など)のための推奨データフォーマットであり、ロックインを避けるための完全なオープンソースです。また、Deltaユニバーサルフォーマット(UniForm)により、IcebergリーダークライアントでDeltaテーブルを読み取ることができます。

    Databricks データインテリジェンスプラットフォームでは、独自のデータ形式は使用されていません。

  • データとAIのガバナンス

    ストレージ層に加えて、 は、メタストアでのUnity Catalog AIメタデータ管理 アクセス制御 、 監査 、 データディスカバリー 、 データリネージ など、幅広いデータと ガバナンス機能を提供します。

    レイクハウスモニタリングは、データおよびAIアセットの品質メトリクスをすぐに利用でき、これらのメトリクスを可視化するダッシュボードを自動生成します。

    外部SQLソースは、レイクハウスフェデレーションを通じてレイクハウスとUnity Catalogに統合できます。

  • AIエンジン

    データ インテリジェンス プラットフォームは、レイクハウス アーキテクチャ上に構築され、データ インテリジェンス エンジンDatabricksIQによって強化されています。 DatabricksIQ 、生成AIとレイクハウス アーキテクチャの統合の利点を組み合わせて、データの固有のセマンティクスを理解します。 Intelligent Search とDatabricks Assistant は、すべてのユーザーのプラットフォーム操作を簡素化する AI 搭載サービスの例です。

  • オーケストレーション

    Databricks ジョブを使用すると、あらゆるクラウドでデータと AI のライフサイクル全体にわたって多様なワークロードを実行できます。 これらを使用すると、SQL、Spark、ノートブック、DBT、ML モデルなどの Delta Live Tables だけでなくジョブもオーケストレーションできます。

    このプラットフォームは、CI/CDMLOps もサポートしています

  • ETL & DSツール

    消費レイヤーでは、データエンジニアとMLエンジニアは通常、IDEsを使ってプラットフォームと連携します。データサイエンティストはノートブックを好み、ML & AIランタイムや機械学習ワークフローシステムMLflow使用して実験を追跡し、モデルのライフサイクルを管理します。

  • BIツール

    ビジネスアナリストは通常、好みのBIツールを使用してDatabricksデータウェアハウスにアクセスします。Databricks SQLは、さまざまな分析ツールとBIツールでクエリを実行できます。詳細については、「BIとビジュアライゼーション」を参照してください。

    さらに、このプラットフォームではクエリーと分析ツールをすぐに利用できます。

    • AI/BIダッシュボードを使用して、データの視覚化をドラッグアンドドロップし、知見を共有します。

    • データアナリストなどのドメイン専門家は、データセット、サンプル クエリ、テキスト ガイドラインを使用して AI/BI Genie spaces を構成し、ビジネス上の質問を分析クエリに Genie 変換するのに役立ちます。 セットアップ後、ビジネス ユーザーは質問をしたり、運用データを理解するための視覚化を生成したりできます。

    • Databricks Apps を使用すると、開発者は Databricks プラットフォーム上で安全なデータアプリケーションと AI アプリケーションを作成し、それらのアプリをユーザーと共有することができます。

  • コラボレーション

    Delta Sharingは、使用するコンピューティングプラットフォームに関係なく、他の組織と安全なデータ共有を行うために、Databricksによって開発されたオープンプロトコルです。

    Databricks Marketplaceは、データ製品を交換するためのオープンフォーラムです。Delta Sharingを活用することで、データプロバイダーには、データ製品を安全に共有するためのツールを、データコンシューマーには、必要なデータやデータサービスを探したり、利用したりするための機会を提供します。

    クリーンルーム は、 Delta Sharing とサーバレス コンピュートを使用して、複数の関係者が互いのデータに直接アクセスすることなく、機密性の高い企業データに対して協力して作業できる、安全でプライバシー保護の環境を提供します。