メインコンテンツまでスキップ

レイクハウスプラットフォームの範囲

最新のデータおよびAIプラットフォームのフレームワーク

Databricksデータインテリジェンスプラットフォームの範囲について説明するには、まず最新のデータおよびAIプラットフォームの基本的なフレームワークを定義すると役立ちます。

クラウドデータ分析フレームワーク。

レイクハウススコープの概要

Databricksデータインテリジェンスプラットフォームは、最新のデータプラットフォームフレームワークに完全対応しています。レイクハウス上に構築されており、データの独自性を理解するためのデータインテリジェンスエンジンを搭載しています。これは、ETL、ML/AI、DWH/BIワークロード向けのオープンで統合された基盤であり、Unity Catalogを一元化データおよびAIガバナンスソリューションとして備えています。

プラットフォームフレームワークのペルソナ

このフレームワークは、フレームワーク内のアプリケーションを扱う主要なデータチームメンバー(ペルソナ)を対象としています。

  • データエンジニア は、データサイエンティストやビジネスアナリストに正確で再現性のあるデータを提供し、タイムリーな意思決定を行い、リアルタイムの知見が得られるようにします。一貫性と信頼性の高いETLプロセスを導入することで、データに対するユーザーの信頼と信用を高めています。データがビジネスのさまざまな柱とうまく統合されていることを確認し、通常はソフトウェアエンジニアリングのベストプラクティスに従います。
  • データサイエンティスト は、分析の専門知識とビジネスの理解を組み合わせて、データを戦略的知見と予測モデルに変換します。彼らは、遡及的な分析的知見や将来を見据えた予測モデリングなどを通じて、ビジネス上の課題をデータ主導のソリューションに変換することに長けています。データモデリングと機械学習技術を活用して、データからパターン、傾向、予測を明らかにするモデルを設計、開発、展開します。これらは橋渡しの役割を果たし、複雑なデータの物語をわかりやすいストーリーに変換します。これにより、ビジネス関係者はデータに基づく推奨事項を理解するだけでなく、それに基づいて行動できるようになります。その結果、組織内の問題解決に対するデータ中心のアプローチが推進されます。
  • 機械学習エンジニア (機械学習エンジニア)は、機械学習モデルの構築や、デプロイ、メンテナンスを通じて、製品やソリューションにおけるデータサイエンスの実用化をリードします。彼らは、モデル開発と展開のエンジニアリングの側面に主な焦点を当てています。機械学習エンジニアは、実環境における機械学習システムの堅牢性、信頼性、拡張性を確保し、データ品質、インフラ、パフォーマンスに関する課題に取り組みます。AIや機械学習モデルを業務プロセスやユーザー向け製品に統合することで、ビジネス課題の解決におけるデータサイエンスの活用を促進し、モデルが研究だけにとどまることなく、具体的なビジネス価値をもたらすことを保証します。
  • ビジネスアナリストビジネスユーザー : ビジネスアナリストは、ステークホルダーとビジネスチームに実用的なデータを提供します。 多くの場合、データを解釈し、標準のBIツールを使用して管理用のレポートやその他のドキュメントを作成します。 通常、技術者以外のビジネスユーザーや運用担当者が分析に関する質問を迅速に行うための最初の窓口となります。 Databricks プラットフォーム上で提供されるダッシュボードとビジネスアプリは、ビジネスユーザーが直接使用できます。
  • ネットワーク化が進むビジネス界において、 ビジネスパートナー は重要なステークホルダーです。ビジネスパートナーとは、共通の目標を達成するために企業が正式な関係を持つ企業または個人と定義されます。これにはベンダー、サプライヤー、代理店、その他の第三者パートナーが含まれます。データ共有はビジネスパートナーシップの重要な側面です。データの転送と交換を可能にすることで、コラボレーションとデータドリブンの意思決定が強化されます。

プラットフォームフレームワークのドメイン

プラットフォームは複数のドメインで構成されています。

  • ストレージ :クラウドでは、データは主に、クラウドプロバイダー上の、スケーラブルで効率的かつ復元力のあるオブジェクトストレージに保存されます。

  • ガバナンス :すべてのデータおよびAI資産のアクセス制御、監査、メタデータ管理、リネージトラッキング、モニタリングなど、データガバナンスに関する機能です。

  • AIエンジン :AIエンジンは、プラットフォーム全体に生成AI機能を提供します。

  • 取り込みと変換: ETL ワークロードの機能。

  • アドバンスド アナリティクス, ML, AI: 機械学習、 AI、ストリーミング分析に関するすべての機能。

  • データウェアハウス: DWH と BI のユースケースをサポートするドメイン。

  • 自動化: データ処理、機械学習、アナリティクス パイプライン ( CI/CD および MLOps のサポートを含む) のワークフロー管理。

  • ETL & DSツール: データエンジニアや、データサイエンティスト、機械学習エンジニアが主に業務で使用するフロントエンドツール。

  • BIツール: BIアナリストが主に仕事に使用するフロントエンドツール。

  • コラボレーション :2人以上の関係者間でデータを共有する機能。

Databricks プラットフォームの範囲

Databricks Data Intelligence Platformとそのコンポーネントは、次のようにフレームワークにマッピングできます。

レイクハウスの範囲の図。 ダウンロード: レイクハウスの範囲 - Databricks コンポーネント

Databricks 上のデータワークロード

最も重要なことは、Databricks Data Intelligence Platform は、 Apache Spark/Photon をエンジンとして、データドメインに関連するすべてのワークロードを 1 つのプラットフォームでカバーすることです。

  • 取り込みと変換

    データ取り込みの場合、 Auto Loaderは、スケジュールされたジョブまたは連続したジョブでクラウドストレージに到着するファイルを段階的かつ自動的に処理します-状態情報を管理する必要はありません。取り込んだ生データを変換して、BIとML/AIに対応できるようにする必要があります。 DatabricksETLは、データエンジニア、data scientists 、およびアナリスト向けの強力な 機能を提供します。

    DLT (DLT)を使用すると、宣言的な方法でジョブ ETL 書き込むことができ、実装プロセス全体が簡素化されます。 データ品質は、 データの期待値を定義することで改善できます。

  • 高度な分析、ML、AI

    このプラットフォームには、 Databricks Mosaic AI AIクラシックマシンとディープラーニング 用の完全に統合された機械学習および ツールのセットである が含まれています。データの準備から機械学習モデルやディープラーニングモデルの構築、Mosaic AI Model Servingまでのワークフロー全体をカバーしています。

    Spark構造化ストリーミングDLT により、リアルタイム アナリティクスが可能になります。

  • データウェアハウス

    Databricks Data Intelligence Platform には、 Databricks SQL を備えた完全なデータウェアハウスソリューションもあり、 Unity Catalog によって一元管理され、きめ細かなアクセス制御が可能です。

Databricksの機能領域の概要

これは、Databricksデータインテリジェンスプラットフォームの機能を、フレームワークの他のレイヤーに下から上にマッピングしたものです。

  • クラウドストレージ

    レイクハウスのすべてのデータは、クラウド上でプロバイダーのオブジェクトストレージに保存されます。 Databricks は、AWS、Azure、GCP の 3 つのクラウドプロバイダーをサポートしています。 さまざまな構造化形式および半構造化形式 ( Parquet、 CSV、 JSON、 Avroなど) のファイル、および非構造化形式 (画像やドキュメントなど) のファイルは、バッチ プロセスまたはストリーミング プロセスを使用して取り込まれ、変換されます。

    Delta Lakeは、レイクハウスに推奨されるデータ形式(ファイルトランザクション、信頼性、一貫性、更新など)であり、ロックインを避けるために完全にオープンソースです。また、 Delta Universal Format (UniForm) を使用すると、Iceberg リーダー クライアントで Delta テーブルを読み取ることができます。

    Databricks データインテリジェンスプラットフォームでは、独自のデータ形式は使用されていません。

  • データとAIのガバナンス

    ストレージ層に加えて、 は、メタストアでのUnity Catalog AIメタデータ管理 アクセス制御、 監査 、 データディスカバリー、 データリネージ など、幅広いデータと ガバナンス機能を提供します。

    レイクハウス モニタリング は、データおよび AI アセットに対してすぐに使用できる高品質のメトリクスと、これらのメトリクスを視覚化するための自動生成されたダッシュボードを提供します。

    外部 SQL ソースは、 レイクハウス フェデレーションを通じてレイクハウスと Unity Catalog に統合できます。

  • AIエンジン

    Data Intelligence Platform は、レイクハウスアーキテクチャに基づいて構築され、 Databricks の AI を活用した機能によって強化されています。Databricks AI は、生成AI とレイクハウス アーキテクチャの統合の利点を組み合わせて、データの一意のセマンティクスを理解します。 Intelligent Search と Databricks Assistant は、すべてのユーザーのプラットフォームでの作業を簡素化する AI を活用したサービスの例です。

  • オーケストレーション

    Databricks ジョブ を使用すると、あらゆるクラウドでデータと AI のライフサイクル全体に対応する多様なワークロードを実行できます。これにより、ジョブだけでなく、SQL、Spark、ノートブック、DBT、ML モデルなどの DLT をオーケストレーションできます。

    このプラットフォームは、CI/CDMLOps もサポートしています

  • ETL & DSツール

    消費レイヤーでは、データエンジニアと エンジニアは通常、ML を使用してプラットフォームを操作し ますIDEs 。data scientists 多くの場合、 ノートブック を好み、 ML & AI ランタイムを使用し、機械学習ワークフロー システム MLflow エクスペリメントを追跡し、モデルのライフサイクルを管理します。

  • BIツール

    ビジネスアナリストは通常、好みの BI ツールを使用して Databricks データウェアハウスにアクセスします。 Databricks SQL は、さまざまな分析ツールと BI ツールでクエリを実行できます (「BI と視覚化」を参照)

    さらに、このプラットフォームではクエリーと分析ツールをすぐに利用できます。

    • AI/BIダッシュボードを使用して、ドラッグアンドドロップでデータの視覚化を行い、知見を共有します。

    • データアナリストなどのドメイン専門家は、データセット、サンプル クエリ、テキスト ガイドラインを使用して AI/BI Genieスペース を構成し、ビジネス上の質問を分析クエリに Genie 変換するのに役立ちます。 セットアップ後、ビジネス ユーザーは質問をしたり、運用データを理解するための視覚化を生成したりできます。

    • SQLSQLアナリストがデータを分析するためのエディター。

  • コラボレーション

    Delta Sharingは、使用するコンピューティングプラットフォームに関係なく、他の組織との安全なデータ共有を行うために、Databricksによって開発されたオープンプロトコルです。

    Databricks Marketplace は、データ製品を交換するためのオープンフォーラムです。 Delta Sharingを活用して、データプロバイダーはデータ製品を安全に共有するためのツールを提供し、データ消費者は必要なデータおよびデータサービスへのアクセスを探索して拡大することができます。