パイプラインプロパティリファレンス

この記事では、 Lakeflow Spark宣言型パイプラインのパイプラインJSON設定仕様とテーブルプロパティのリファレンスを提供します。これらのさまざまなプロパティと構成の使用の詳細については、次の記事を参照してください。

パイプライン構成

id

タイプ： string

このパイプラインのグローバルに一意の識別子。識別子はシステムによって割り当てられ、変更することはできません。
name

タイプ： string

このパイプラインのユーザーフレンドリな名前。この名前は、UI でパイプラインジョブを識別するために使用できます。
configuration

タイプ： object

パイプラインを実行するクラスターの Spark 構成に追加する設定のオプションのリスト。これらの設定は、 Lakeflow Spark宣言型パイプラインランタイムによって読み取られ、 Spark構成を通じてパイプラインクエリで使用できます。

要素はkey:valueペアとしてフォーマットする必要があります。
libraries

タイプ： array of objects

パイプラインコードと必要なアーティファクトを含むコードファイルの配列。
clusters

タイプ： array of objects

パイプラインを実行するためのクラスターの仕様の配列。

これが指定されていない場合、パイプラインはパイプラインのデフォルトクラスター構成を自動的に選択します。
development

タイプ： boolean

パイプラインを実行するかどうかを示すフラグ developmentまたはproductionモード。

デフォルト値は true
notifications

タイプ： array of objects

パイプラインの更新が完了したとき、再試行可能なエラーで失敗したとき、再試行不可能なエラーで失敗したとき、またはフローが失敗したときの電子メール通知のオプションの仕様の配列。
continuous

タイプ： boolean

パイプラインを継続的に実行するかどうかを示すフラグ。

デフォルト値はfalseです。
catalog

タイプ： string

パイプラインのすべてのデータセットとメタデータが公開される、パイプラインのデフォルトカタログの名前。この値を設定すると、パイプラインのUnity Catalog有効になります。

設定しない場合、パイプラインは、 storageで指定された場所を使用して従来のHive metastoreに公開します。

従来の公開モードでは、現在のパイプラインのすべてのデータセットが公開されるターゲットスキーマを含むカタログを指定します。LIVE スキーマ (レガシー)を参照してください。
schema

タイプ： string

パイプラインのデフォルトスキーマの名前。パイプラインのすべてのデータセットとメタデータがデフォルトで公開されます。「ターゲットカタログとスキーマを設定する」を参照してください。
target （レガシー）。

タイプ： string

現在のパイプラインで定義されているすべてのデータセットが公開されるターゲットスキーマの名前。

schemaの代わりにtargetを設定すると、パイプラインは従来の公開モードを使用するように構成されます。LIVE スキーマ (レガシー)を参照してください。
storage （レガシー）。

タイプ： string

パイプライン実行に必要な出力データとメタデータが保存される DBFS またはクラウドストレージ上の場所。テーブルとメタデータはこの場所のサブディレクトリに保存されます。

storage設定が指定されていない場合、システムはデフォルトでdbfs:/pipelines/内の場所を使用します。

パイプラインの作成後は、 storage設定を変更できません。
channel

タイプ： string

使用するLakeflow Spark宣言型パイプラインランタイムのバージョン。サポートされる値は次のとおりです。
- preview ランタイムバージョンに対する今後の変更を使用してパイプラインをテストします。
- current をクリックして、現在のランタイムバージョンを使用します。
channelフィールドはオプションです。デフォルト値は current 。Databricks 、本番運用ワークロードには現在のランタイムバージョンを使用することをお勧めします。
edition

Type string

Lakeflow Spark宣言型パイプライン製品版はパイプラインを実行します。この設定により、パイプラインの要件に基づいて最適な製品エディションを選択できます。
- CORE を使用して、ストリーミング取り込みワークロードを実行します。
- PRO 実行ストリーミング取り込みおよびデータキャプチャ ( CDC ) ワークロードに適用されます。
- ADVANCED ストリーミング取り込みワークロード、CDC ワークロード、およびデータ品質制約の適用が期待されるワークロードを実行します。
editionフィールドはオプションです。デフォルト値は ADVANCED 。
photon

タイプ： boolean

パイプラインの実行で Photon を使用するかどうかを示すフラグ。 Photon は、Databricks のハイパフォーマンス Spark エンジンです。 Photon 対応パイプラインは、非 Photon パイプラインとは異なるレートで請求されます。

photonフィールドはオプションです。デフォルト値はfalseです。
pipelines.maxFlowRetryAttempts

タイプ： int

パイプラインの更新中に再試行可能な障害が発生した場合、これはパイプラインの更新が失敗するまでにフローを再試行する最大回数です。

デフォルト: 2 回の再試行。再試行可能な障害が発生すると、 Lakeflow Spark宣言型パイプラインランタイムは、最初の試行を含めてフローの実行を 3 回試行します。
pipelines.numUpdateRetryAttempts

タイプ： int

更新中に再試行可能な障害が発生した場合、更新が永続的に失敗するまでに更新を再試行する最大回数です。再試行は完全な更新として実行されます。

このパラメーターは、本番運用モードで実行されているパイプラインにのみ適用されます。開発モードでパイプラインを実行する場合、またはValidate更新を実行する場合、再試行は試行されません。

デフォルト：
- トリガーされたパイプラインの場合は 5 つ。
- 継続的なパイプラインの場合は無制限。

パイプラインテーブルのプロパティ

Delta Lakeでサポートされているテーブルプロパティに加えて、次のテーブルプロパティを設定できます。

pipelines.autoOptimize.zOrderCols

デフォルト: なし

このテーブルを Z-order する列名のコンマ区切りリストを含むオプションの文字列。例えば pipelines.autoOptimize.zOrderCols = "year,month"
pipelines.reset.allowed

デフォルト： true

このテーブルに対して完全な更新が許可されるかどうかを制御します。
pipelines.autoOptimize.managed

デフォルト： true

このテーブルの自動的にスケジュールされた最適化を有効または無効にします。

予測的最適化で管理されるパイプラインでは、このプロパティは使用されません。

パイプラインのトリガー間隔

パイプライントリガー間隔は、パイプライン全体に対して指定することも、データセット宣言の一部として指定することもできます。連続パイプラインのトリガー間隔の設定を参照してください。

pipelines.trigger.interval

デフォルトはフローの種類によって異なります。
- ストリーミングクエリの場合は 5 秒。
- すべての入力データが Delta ソースからのものである場合、クエリを完了するには 1 分かかります。
- 一部のデータソースがデルタでない場合は、完全なクエリに 10 分かかります。
値は数値と時間単位を加えたものです。有効な時間単位は次のとおりです。
- second, seconds
- minute, minutes
- hour, hours
- day, days
値を定義するときは、単数または複数の単位を使用できます。次に例を示します。
- {"pipelines.trigger.interval" : "1 hour"}
- {"pipelines.trigger.interval" : "10 seconds"}
- {"pipelines.trigger.interval" : "30 second"}
- {"pipelines.trigger.interval" : "1 minute"}
- {"pipelines.trigger.interval" : "10 minutes"}
- {"pipelines.trigger.interval" : "10 minute"}

ユーザーが設定できない属性のクラスター

Lakeflow Spark宣言型パイプライン (SDP) はクラスターのライフサイクルを管理するため、多くのクラスター設定はシステムによって設定され、パイプライン構成またはパイプラインで使用されるクラスターポリシーのいずれかでユーザーが手動で構成することはできません。次の表に、これらの設定と、手動で設定できない理由を示します。

cluster_name

SDP は、パイプラインの更新を実行するために使用されるクラスターの名前を設定します。これらの名前は上書きできません。
data_security_mode

access_mode

これらの値はシステムによって自動的に設定されます。
spark_version

SDP クラスターは、最新の機能が含まれるように継続的に更新される Databricks Runtime のカスタムバージョンで実行されます。Spark のバージョンは Databricks Runtime バージョンにバンドルされており、オーバーライドすることはできません。
autotermination_minutes

SDP はクラスターの自動終了と再利用ロジックを管理するため、クラスターの自動終了時間をオーバーライドすることはできません。
runtime_engine

パイプラインで Photon を有効にすることでこのフィールドを制御することはできますが、この値を直接設定することはできません。
effective_spark_version

この値はシステムによって自動的に設定されます。
cluster_source

このフィールドはシステムによって設定され、読み取り専用です。
docker_image

SDP はクラスターのライフサイクルを管理するため、パイプラインクラスターではカスタムコンテナーを使用できません。
workload_type

この値はシステムによって設定され、上書きすることはできません。

パイプライン構成​

パイプラインテーブルのプロパティ​

パイプラインのトリガー間隔​

ユーザーが設定できない属性のクラスター​

パイプライン構成

パイプラインテーブルのプロパティ

パイプラインのトリガー間隔

ユーザーが設定できない属性のクラスター