データレイクハウスのパフォーマンス効率

この記事では、負荷の変化に適応するシステムの能力を指す、 パフォーマンス効率 の柱のアーキテクチャ原則について説明します。

Databricks のパフォーマンス効率レイクハウスアーキテクチャ図。

パフォーマンス効率の原則

サーバレスアーキテクチャの使用

サーバレスアーキテクチャでは、コンピューティングインフラストラクチャをクラウド上で運用および保守する顧客は必要ありません。これにより、マネージドサービスはクラウド規模で動作するため、クラウドインフラストラクチャの管理に伴う運用オーバーヘッドが排除され、トランザクションコストが削減されます。また、すぐに利用でき、すぐに使用できるセキュリティも提供され、最小限の構成や管理が必要です。
パフォーマンスのためのワークロードの設計

データエンジニアリングパイプラインなどの繰り返しのワークロードの場合、パフォーマンスを後回しにしないでください。データは次の条件を満たしている必要があります。
- オブジェクトメモリから効率的に読み取ります。
- 効率的に変換。
- 消費のために効率的に公開されます。
さらに、ほとんどのパイプラインまたは消費パターンでは、システムのチェーンが使用されます。可能な限り最高のパフォーマンスを実現するには、チェーン全体を考慮し、最高のパフォーマンスを選択する必要があります。
開発の範囲内でパフォーマンステストを実行する

すべての開発ワークロードは、継続的なパフォーマンステストを受ける必要があります。このテストでは、コードベースへの変更がワークロードのパフォーマンスに悪影響を及ぼさないことを確認します。テストを実行するための定期的なスケジュールを確立します。スケジュールされたイベントの一部として、または継続的インテグレーションビルドパイプラインの一部としてテストを実行します。

パフォーマンスベースラインを確立し、ワークロードとサポートインフラストラクチャの現在の効率を判断します。ベースラインに対してパフォーマンスを測定することで、改善のための戦略を提供し、アプリケーションがビジネス目標を達成しているかどうかを判断できます。

パフォーマンスに影響を与えている可能性のあるボトルネックを特定します。これらのボトルネックは、コードエラーやサービスの構成ミスが原因である可能性があります。通常、負荷が増加するとボトルネックは悪化します。
パフォーマンスの監視

リソースとサービスに引き続きアクセス可能であること、およびパフォーマンスがユーザーの期待またはワークロードの要件を満たしていることを確認します。モニタリングは、ボトルネックやリソース不足の特定、構成の最適化、パイプライン/ワークロードのエラーの検出に役立ちます。

次へ: パフォーマンス効率に関するおすすめの方法

パフォーマンス効率のベストプラクティスを参照してください。

パフォーマンス効率の原則​

次へ: パフォーマンス効率に関するおすすめの方法​

パフォーマンス効率の原則

次へ: パフォーマンス効率に関するおすすめの方法