Lakeflow Spark宣言型パイプラインの概念

Lakeflow Spark宣言型パイプライン (SDP) とは何か、それを定義する中心的な概念 (パイプライン、ストリーミングテーブル、マテリアライズドビューなど)、それらの概念間の関係、データ処理ワークフローで SDP を使用する利点について学びます。

SDPとは何ですか?

Lakeflow Spark宣言型パイプラインは、 SQLおよびPythonでバッチおよびストリーミングデータパイプラインを開発および実行するための宣言型フレームワークです。 Lakeflow SDP は、パフォーマンスが最適化されたDatabricks Runtime上で実行されながら、 Apache Spark 宣言型パイプラインを拡張し、相互運用可能です。また、 Lakeflow Spark 宣言型パイプラインflows API 、 Apache Sparkおよび構造化ストリーミングと同じDataFrame API使用します。 SDP の一般的な使用例には、クラウドストレージ (Amazon S3、Azure ADLS Gen2、Google Cloud Storage など) やメッセージバス (Apache Kafka、Amazon Kinesis、Google Pub/Sub、Azure EventHub、Apache Pulsar など) などのソースからの増分データ取り込み、ステートレスおよびステートフルオペレーターによる増分バッチおよびストリーミング変換、メッセージバスやデータベースなどのトランザクションストア間のリアルタイムストリーム処理などがあります。

宣言型データ処理の詳細については、「Databricks での手続き型データ処理と宣言型データ処理」を参照してください。

SDP の利点は何ですか?

SDP の宣言的な性質によりApache SparkおよびSpark構造化ストリーミングAPIs使用してデータプロセスを開発し、 Lakeflowジョブを介した手動オーケストレーションを使用してDatabricks Runtimeでそれらを実行するのと比較して、次の利点が得られます。

自動オーケストレーション : SDP は、処理ステップ (「フロー」と呼ばれる) を自動的にオーケストレーションし、正しい実行順序と最大レベルの並列処理を確保して、最適なパフォーマンスを実現します。さらに、パイプラインは一時的な障害を自動的かつ効率的に再試行します。再試行プロセスは、最も細分化されコスト効率の高い単位である Spark タスクから始まります。タスクレベルの再試行が失敗した場合、SDP はフローの再試行に進み、必要に応じて最後にパイプライン全体を再試行します。
宣言型処理 : SDP は、数百行、あるいは数千行に及ぶ手動の Spark および構造化ストリーミングコードをわずか数行にまで削減できる宣言型関数を提供します。SDP AUTO CDC API 、 SCD Type 1 とSCD Type 2 の両方をサポートすることで、チェンジデータキャプチャ ( CDC ) イベントの処理を簡素化します。これにより、順序外れのイベントを処理するための手動コードの必要性がなくなり、ストリーミングセマンティクスやウォーターマークなどの概念を理解する必要もありません。
インクリメンタル処理 : SDP はマテリアライズドビュー用のインクリメンタル処理エンジンを提供します。これを使用するには、バッチセマンティクスを使用して変換ロジックを作成します。エンジンは、可能な限り新しいデータとデータソース内の変更のみを処理します。増分処理により、ソースに新しいデータまたは変更が発生したときに非効率的な再処理が削減され、増分処理を処理するための手動コードが不要になります。

重要な概念

以下の図は、 Lakeflow Spark宣言型パイプラインの最も重要な概念を示しています。

SDPの中核概念が互いにどのように関連しているかを非常に高いレベルで示す図

フロー

フローは、ストリーミングとバッチセマンティクスの両方をサポートする SDP の基本的なデータ処理概念です。フローはソースからデータを読み取り、ユーザー定義の処理ロジックを適用し、結果をターゲットに書き込みます。SDP は、 Spark構造化ストリーミングと同じストリーミングフロータイプ ( Append 、 Update 、 Complete ) を共有します。 (現在は、 Append フローのみが公開されています。)詳細については、構造化ストリーミングの出力モードを参照してください。

Lakeflow Spark宣言型パイプラインは、追加のフロータイプも提供します。

AUTO CDC 、順序外れのCDCイベントを処理し、 SCD Type 1 とSCD Type 2 の両方をサポートするLakeflow SDP の独自のストリーミングフローです。Auto CDC 、 Apache Spark 宣言型パイプラインでは使用できません。
マテリアライズドビューは、 可能な限り新しいデータとソーステーブルの変更のみを処理する SDP のバッチフローです。

詳細については、次を参照してください。

SDPフローを使用してデータを段階的にロードして処理する

ストリーミングテーブル

ストリーミングテーブルは Unity Catalogマネージドテーブルの形式であり、 Lakeflow SDP のストリーミングターゲットでもあります。ストリーミングテーブルには、1 つ以上のストリーミングフロー ( Append 、 AUTO CDC ) を書き込むことができます。 AUTO CDC 、 Databricksのストリーミングテーブルでのみ使用できる独自のストリーミングフローです。ストリーミングフローは、ターゲットストリーミングテーブルとは別に明示的に定義できます。ストリーミングフローをストリーミングテーブル定義の一部として暗黙的に定義することもできます。

詳細については、次を参照してください。

ストリーミングテーブルの仕組み

マテリアライズドビュー

マテリアライズドビュー は、Unity Catalog マネージドテーブルの形式であり、バッチターゲットでもあります。マテリアライズドビューには、1 つ以上のマテリアライズドビューフローを書き込むことができます。マテリアライズドビューがストリーミングテーブルと異なるのは、常にマテリアライズドビューの定義の一部としてフローを暗黙的に定義する点です。

詳細については、次を参照してください。

マテリアライズドビューの仕組み

シンク

シンク はパイプラインのストリーミングターゲットであり、現在、 Deltaテーブル、 Apache Kafkaトピック、 Azure EventHubs トピック、およびカスタムPythonデータソースをサポートしています。シンクには、1 つ以上のストリーミングフロー ( Append ) を書き込むことができます。

詳細については、次を参照してください。

シンクを使用して外部サービスにレコードをストリーミングする

パイプライン

A パイプラインは、 Lakeflow Spark宣言型パイプラインの開発と実行の単位です。パイプラインには、1 つ以上のフロー、ストリーミングテーブル、マテリアライズドビュー、シンクを含めることができます。 SDP を使用するには、パイプラインソースコードでフロー、ストリーミングテーブル、マテリアライズドビュー、シンクを定義し、パイプラインを実行します。パイプラインの実行中に、定義されたフロー、ストリーミングテーブル、マテリアライズドビュー、シンクの依存関係が分析され、それらの実行順序と並列化が自動的に調整されます。

詳細については、次を参照してください。

パイプラインを構成する

Databricks SQLパイプライン

ストリーミングテーブルとマテリアライズドビューは、 Databricks SQLの 2 つの基本機能です。標準SQL使用して、 Databricks SQLでストリーミングテーブルとマテリアライズドビューを作成および更新できます。 Databricks SQL実行のストリーミングテーブルとマテリアライズドビューは、同じDatabricksインフラストラクチャ上にあり、 Lakeflow Spark宣言型パイプラインと同じ処理セマンティクスを持ちます。 Databricks SQLでストリーミングテーブルとマテリアライズドビューを使用すると、フローはストリーミングテーブルとマテリアライズドビュー定義の一部として暗黙的に定義されます。

詳細については、次を参照してください。

Databricks SQLでパイプラインを使用する

SDPとは何ですか?​

SDP の利点は何ですか?​

重要な概念​

フロー​

ストリーミングテーブル​

マテリアライズドビュー​

シンク​

パイプライン​

Databricks SQLパイプライン​

詳細情報​

SDPとは何ですか?

SDP の利点は何ですか?

重要な概念

フロー

ストリーミングテーブル

マテリアライズドビュー

シンク

パイプライン

Databricks SQLパイプライン

詳細情報