メインコンテンツまでスキップ

Databricks での手続き型データ処理と宣言型データ処理

この記事では、手続き型プログラミングと宣言型プログラミングの違いと、Databricks でのそれらの使用法について説明します。

手続き型プログラミングと宣言型プログラミングは、コンピューター サイエンスの 2 つの基本的なプログラミング パラダイムです。それぞれが、命令を構造化して実行するための異なるアプローチを表しています。

  • 手続き型プログラミングでは、操作の明示的なシーケンスを定義することにより、タスクの実行方法を指定します。
  • 宣言型プログラミングは、何を達成する必要があるかに焦点を当て、タスクを実行するための最適な方法を決定するのは基盤となるシステムです。

データパイプラインを設計する際、エンジニアは手続き型データ処理モデルと宣言型データ処理モデルのどちらかを選択する必要があります。この決定は、ワークフローの複雑さ、保守性、および効率に影響を与えます。このページでは、これらのモデルの主な違い、利点、課題、および各アプローチをいつ使用するかについて説明します。

手続き型データ処理とは?

手続き型データ処理は、データを操作するための明示的なステップが定義される構造化されたアプローチに従います。このモデルは命令型プログラミングと密接に連携しており、データの処理方法を指示するコマンドシーケンスに重点を置いています。

手続き型処理の特徴

手続き型処理の特徴は次のとおりです。

  • ステップバイステップの実行: 開発者は、操作の順序を明示的に定義します。
  • 制御構造の使用: ループ、条件、および関数が実行フローを管理します。
  • 詳細なリソース制御: きめ細かな最適化と手動のパフォーマンス調整を可能にします。
  • 関連概念: 手続き型プログラミングは、命令型プログラミングのサブクラスです。

手続き型処理の一般的な使用例

以下は、手続き型処理の日常的な使用例です。

  • 手続き型ロジックを必要とするカスタム ETL パイプライン。
  • バッチおよびストリーミングワークフローにおける低レベルのパフォーマンス最適化。
  • レガシ システムまたは既存の命令型スクリプト。

Apache Spark と Databricks ジョブによる手続き型処理

Apache Spark は、主にデータ処理の手続き型モデルに従います。Databricks ジョブを使用して、分散データに対する段階的な変換とアクションを定義するための明示的な実行ロジックを追加します。

宣言型データ処理とは?

宣言型データ処理は、方法を抽象化し、目的の結果を定義することに焦点を当てます。開発者は、ステップバイステップの指示を指定する代わりに、変換ロジックを定義し、システムによって最も効率的な実行プランが決定されます。

宣言型処理の特徴

宣言型処理の特徴は次のとおりです。

  • 実行の詳細の抽象化: ユーザーは、それを達成するための手順ではなく、望ましい結果を説明します。
  • 自動最適化: クエリの計画と実行のチューニングが適用されます。
  • 複雑さの軽減: 明示的な制御構造が不要になり、保守性が向上します。
  • 関連概念: 宣言型プログラミングには、ドメイン固有プログラミング・パラダイムと関数型プログラミング・パラダイムが含まれます。

宣言型処理の一般的な使用例

以下は、宣言型処理の一般的なユースケースです。

  • バッチおよびストリーミングワークフローでのSQLベースの変換。
  • Delta Live Tables (DLT) などの高レベルのデータ処理フレームワーク。
  • 自動最適化を必要とするスケーラブルな分散データワークロード。

DLT による宣言型処理

DLT は、信頼性と保守性に優れたストリーム処理パイプラインの作成を簡略化するために設計された宣言型フレームワークです。DLT は、取り込むデータとその変換方法を指定することで、オーケストレーション、コンピュート管理、モニタリング、データ品質の適用、エラー処理など、パイプライン管理の主要な側面を自動化します。

主な違い: 手続き型処理と宣言型処理

アスペクト

手続き型処理

宣言型処理

コントロール

実行の完全な制御

システムによって処理される実行

複雑さ

複雑で冗長な場合があります

一般的にシンプルで簡潔

最適化

手動チューニングが必要

システム・ハンドルの最適化

柔軟性

高いですが、専門知識が必要です

低く、しかし使いやすい

ユースケース

カスタム パイプライン、パフォーマンス チューニング

SQL クエリ、マネージド パイプライン

手続き型処理と宣言型処理のどちらを選択するか

次の表は、手続き型処理と宣言型処理の主要な決定ポイントの概要を示しています。

手続き型処理

宣言型処理

実行ロジックをきめ細かく制御する必要があります。

開発と保守の簡素化が優先事項です。

変換には、宣言的に表現するのが難しい複雑なビジネス ルールが含まれます。

SQL ベースの変換や管理されたワークフローにより、手続き型制御が不要になります。

パフォーマンスの最適化には、手動チューニングが必要です。

DLTなどのデータ処理フレームワークは、組み込み最適化を提供します。