レイクハウスの基本原則

基本原則は、アーキテクチャを定義し、影響を与えるレベルゼロのルールです。 現在および将来のビジネスの成功に役立つデータレイクハウスを構築するには、組織内の関係者間の合意が重要です。

データをキュレートし、信頼できるデータを製品として提供する

BI や機械学習/AI 向けの価値の高いデータレイクを作成するには、データのキュレーションが不可欠です。 データを明確な定義、スキーマ、ライフサイクルを持つ製品のように扱います。 セマンティックの一貫性を確保し、データ品質がレイヤーごとに向上するようにして、ビジネスユーザーがデータを完全に信頼できるようにします。

データをキュレートし、信頼できるデータを製品として提供する

レイヤード (またはマルチホップ) アーキテクチャを確立してデータをキュレーションすることは、データ チームが品質レベルに従ってデータを構造化し、レイヤーごとの役割と責任を定義できるため、レイクハウスにとって重要なベスト プラクティスです。 一般的な階層化のアプローチは次のとおりです。

  • 取り込みレイヤー: ソース データはレイクハウスの最初のレイヤーに取り込まれ、そこで永続化される必要があります。 すべてのダウンストリームデータがインジェストレイヤーから作成されたら、必要に応じて、このレイヤーから後続のレイヤーを再構築できます。

  • キュレーションされたレイヤー: 2 番目のレイヤーの目的は、クレンジング、絞り込み、フィルター処理、および集計されたデータを保持することです。 このレイヤーの目標は、すべての役割と機能にわたる分析とレポートのための健全で信頼性の高い基盤を提供することです。

  • 最終層: 3 番目の層は、ビジネスまたはプロジェクトのニーズに基づいて作成されます。他のビジネス ユニットやプロジェクトにデータ製品として異なるビューを提供し、セキュリティ ニーズに応じたデータ (匿名化されたデータなど) を準備したり、パフォーマンスを最適化したり (事前に集計されたビューを使用) します。 この層のデータ製品は、ビジネスにとっての真実とみなされます。

すべてのレイヤーにわたるパイプラインは、データ品質の制約が満たされていることを保証する必要があります。つまり、データが常に正確で、完全で、アクセス可能であり、ライナーの読み取りおよび書き込み中であっても一貫性があることを意味します。 新しいデータの検証は、キュレートされたレイヤーへのデータ入力時に行われ、次の ETL ステップがこのデータの品質を向上させるために機能します。 データがレイヤーを通過するにつれてデータ品質を向上させる必要があるため、ビジネスの観点からデータの信頼性が高まります。

データのサイロ化を解消し、データ移動を最小化

これらの異なるコピーに依存するビジネス プロセスを含むデータセットのコピーを作成しないでください。 コピーは同期が取れなくなるデータ サイロとなり、データ レイクの品質の低下につながり、最終的には古い知識や不正確な知識につながる可能性があります。 また、外部パートナーとデータを共有する場合は、安全な方法でデータに直接アクセスできるエンタープライズ共有メカニズムを使用してください。

データのサイロ化を解消し、データ移動を最小化

データコピーとデータサイロの違いを明確にするために、データのスタンドアロンまたは使い捨てのコピーは、それ自体では害を及ぼしません。 アジリティ、実験、イノベーションを高めるために必要になる場合があります。 ただし、これらのコピーが、それに依存する下流のビジネス データ製品とともに動作するようになると、データ サイロとなります。

データのサイロ化を防ぐために、データ チームは通常、すべてのコピーをオリジナルと同期させるメカニズムまたはデータパイプラインを構築しようとします。 これが一貫して発生する可能性は低いため、データ品質は最終的に低下します。 これは、コストの上昇とユーザーからの信頼の大幅な喪失にもつながります。 一方、いくつかのビジネス ユース ケースでは、パートナーやサプライヤーとのデータ共有が必要です。

重要な側面は、最新バージョンのデータセットを安全かつ確実に共有することです。 データセットのコピーは、すぐに同期が失われる可能性があるため、十分ではないことがよくあります。 代わりに、データはエンタープライズ データ共有ツールを介して共有される必要があります。

セルフサービスによる価値創造の民主化

ユーザーが BI や機械学習/AI タスクのプラットフォームやデータに簡単にアクセスできない場合、最適なデータレイクは十分な価値を提供できません。 すべての事業部門のデータやプラットフォームへのアクセスに対する障壁を低くします。 無駄のないデータ管理プロセスを検討し、プラットフォームと基盤となるデータへのセルフサービス アクセスを提供します。

セルフサービスによる価値創造の民主化

データドリブンの文化への移行に成功した企業は成長します。 つまり、すべてのビジネスユニットは、分析モデルから、または独自のデータまたは一元的に提供されたデータの分析から意思決定を導き出します。 消費者にとって、データは簡単に検出でき、安全にアクセスできる必要があります。

データ作成者にとって良い概念は「製品としてのデータ」です。データは 1 つの事業部門またはビジネス パートナーによって製品と同様に提供および維持され、適切な権限制御の下で他の当事者によって使用されます。 中央チームや潜在的に遅い要求プロセスに依存する代わりに、これらのデータ製品はセルフサービス エクスペリエンスで作成、提供、発見、使用される必要があります。

しかし、重要なのはデータだけではありません。 データの民主化には、誰もがデータを生成または消費し、理解できるようにするための適切なツールが必要です。 そのためには、データレイクハウスが、別のツール スタックをセットアップする労力を重複させることなく、データ製品を構築するためのインフラストラクチャとツールを提供する最新のデータおよび AI プラットフォームである必要があります。

組織全体のデータガバナンス戦略を採用する

データはあらゆる組織にとって重要な資産ですが、すべての人にすべてのデータへのアクセスを許可することはできません。 データ アクセスはアクティブに管理する必要があります。 アクセス制御、監査、およびリネージ追跡は、データを正しく安全に使用するための鍵です。

組織全体のデータガバナンス戦略を採用する

データガバナンスは幅広いトピックです。 レイクハウスの規模は次のとおりです。

  • データ品質

    正確で有意義なレポート、分析結果、およびモデルのための最も重要な前提条件は、高品質のデータです。 品質保証 (QA) はすべてのパイプライン ステップに存在する必要があります。 これを実装する方法の例としては、データ コントラクトの確立、SLA の遵守、スキーマの安定性の維持、制御された方法でのスキーマの進化などがあります。

  • データカタログ

    もう 1 つの重要な側面はデータ発掘です。すべてのビジネス領域のユーザー、特にセルフサービス モデルのユーザーは、関連するデータを簡単に発見できなければなりません。 したがって、レイクハウスには、すべてのビジネス関連データをカバーするデータカタログが必要です。 データカタログの主な目的は次のとおりです。

    • 同じビジネスコンセプトがビジネス全体で一様に呼ばれ、宣言されていることを確認します。 これは、キュレーションされた最終レイヤーのセマンティック モデルと考えることができます。

    • データリネージを正確に追跡することで、ユーザーはこれらのデータがどのようにして現在の形状に到達したのかを説明できます。

    • データを適切に使用するためには、データ自体と同じくらい重要な高品質のメタデータを維持します。

  • アクセス制御

    レイクハウスのデータからの価値創造はあらゆるビジネス分野で行われるため、レイクハウスは第一級市民としてのセキュリティを備えて構築される必要があります。 企業は、よりオープンなデータ アクセス ポリシーを採用している場合や、最小特権の原則に厳密に従っている場合があります。 それとは別に、データアクセス制御はすべてのレイヤーで実施する必要があります。 最初からきめ細かな権限スキーム(列レベルと行レベルのアクセス制御、ロールベースまたは属性ベースのアクセス制御)を実装することが重要です。 企業は、より厳格でないルールから始めることができます。 しかし、レイクハウス プラットフォームが成長するにつれて、より洗練されたセキュリティ体制のためのすべてのメカニズムとプロセスがすでに整っているはずです。 さらに、レイクハウス内のデータへのすべてのアクセスは、最初から監査ログによって管理される必要があります。

オープンなインターフェースとオープンフォーマットの奨励

オープン インターフェイスとデータ形式は、レイクハウスと他のツール間の相互運用性にとって非常に重要です。 これにより、既存のシステムとの統合が簡素化され、ツールをプラットフォームに統合したパートナーのエコシステムも開かれます。

オープンなインターフェースとオープンフォーマットの奨励

オープンインターフェースは、相互運用性を実現し、単一ベンダーへの依存を防ぐために重要です。 従来、ベンダーは独自のテクノロジーとクローズドなインターフェースを構築していたため、企業がデータを保存、処理、共有する方法が制限されていました。

オープンなインターフェース上に構築することで、将来に向けた構築が可能になります。

  • これにより、データの寿命と移植性が向上し、より多くのアプリケーションやユースケースでデータを使用できるようになります。

  • これにより、オープン インターフェイスを迅速に活用して自社のツールをレイクハウス プラットフォームに統合できるパートナーのエコシステムが開かれます。

最後に、データをオープン形式で標準化することにより、総コストが大幅に削減されます。高い出力コストと計算コストがかかる独自のプラットフォームを介してデータをパイプする必要がなく、クラウド ストレージ上のデータに直接アクセスできます。

パフォーマンスとコストに合わせて拡張および最適化する構築

データは必然的に増え続け、より複雑になります。 組織が将来のニーズに対応できるようにするには、レイクハウスを拡張できる必要があります。 たとえば、新しいリソースをオンデマンドで簡単に追加できる必要があります。 コストは実際の消費量に限定する必要があります。

パフォーマンスとコストに合わせて拡張および最適化する構築

標準的な ETL プロセス、ビジネス レポート、ダッシュボードには、メモリと計算の観点から予測可能なリソースが必要になることがよくあります。 ただし、新しいプロジェクト、季節的なタスク、またはモデル トレーニング (チャーン、予測、メンテナンス) などの最新のアプローチでは、リソース需要のピークが発生します。 企業がこれらすべてのワークロードを実行できるようにするには、メモリと計算のためのスケーラブルなプラットフォームが必要です。 新しいリソースはオンデマンドで簡単に追加する必要があり、実際の消費分のみコストが発生する必要があります。 ピークが過ぎるとすぐにリソースが再び解放され、それに応じてコストが削減されます。 多くの場合、これは水平スケーリング (ノードの数または数が多い) および垂直スケーリング (ノードの大きいまたは小さい) と呼ばれます。

スケーリングにより、企業はより多くのリソースを持つノードまたはより多くのノードを持つクラスターを選択することで、クエリのパフォーマンスを向上させることもできます。 ただし、大規模なマシンやクラスターを永続的に提供するのではなく、全体的なパフォーマンスとコストの比率を最適化するために必要な時間だけオンデマンドでプロビジョニングできます。 最適化のもう 1 つの側面は、ストレージとコンピュート リソースです。 データの量と、このデータを使用するワークロードとの間には明確な関係がないため (たとえば、データの一部のみを使用するか、小規模なデータに対して集中的な計算を実行するかなど)、ストレージを分離するインフラストラクチャ プラットフォームに決めることをお勧めします。とコンピュートのリソース。