Lakeflow 宣言型パイプラインのプロパティリファレンス

この記事では、 JSONで仕様とDatabricksテーブルのプロパティを設定するLakeflow 宣言型パイプラインのリファレンスを提供します。これらのさまざまなプロパティと構成の使用の詳細については、次の記事を参照してください。

Lakeflow 宣言型パイプラインの構成

フィールド
`id` タイプ： `string` このパイプラインのグローバル一意識別子。識別子はシステムによって割り当てられ、変更することはできません。
`name` タイプ： `string` このパイプラインのわかりやすい名前。この名前は、UI でパイプラインジョブを識別するために使用できます。
`configuration` タイプ： `object` パイプラインを実行するクラスターの Spark 構成に追加する設定のオプションの一覧。これらの設定は、 Lakeflow 宣言型パイプラインランタイムによって読み取られ、 Spark 構成を通じてパイプラインクエリで使用できます。要素は `key:value` ペアとして書式設定する必要があります。
`libraries` タイプ： `array of objects` パイプラインコードと必要なアーティファクトを含むノートブックの配列。
`clusters` タイプ： `array of objects` パイプラインを実行するためのクラスターの仕様の配列。これが指定されていない場合、パイプラインはパイプラインのデフォルトクラスター構成を自動的に選択します。
`development` タイプ： `boolean` パイプラインを実行するかどうかを示すフラグ `development` または `production` モード。デフォルト値は `true`
`notifications` タイプ： `array of objects` パイプラインの更新が完了したとき、再試行可能なエラーで失敗したとき、再試行できないエラーで失敗したとき、またはフローが失敗したときの Eメール通知の仕様の省略可能な配列。
`continuous` タイプ： `boolean` パイプラインを連続して実行するかどうかを示すフラグ。デフォルト値は `false`です。
`catalog` タイプ： `string` パイプラインのデフォルトカタログの名前で、パイプラインのすべてのデータセットとメタデータが発行されます。この値を設定すると、パイプラインの Unity Catalog が有効になります。未設定のままにすると、パイプラインは `storage` で指定された場所を使用して従来の Hive metastore にパブリッシュします。従来の公開モードでは、現在のパイプラインのすべてのデータセットが公開されるターゲットスキーマを含むカタログを指定します。 LIVE スキーマ (レガシー)を参照してください。
`schema` タイプ： `string` パイプラインのデフォルトスキーマの名前。パイプラインのすべてのデータセットとメタデータがデフォルトによって発行されます。ターゲット・カタログとスキーマの設定を参照してください。
`target` （レガシー）。タイプ： `string` 現在のパイプラインで定義されているすべてのデータセットが公開されるターゲットスキーマの名前。 `schema` ではなく `target` を設定すると、従来の発行モードを使用するようにパイプラインが構成されます。LIVE スキーマ (レガシー)を参照してください。
`storage` （レガシー）。タイプ： `string` パイプラインの実行に必要な出力データとメタデータが格納される DBFS またはクラウドストレージ上の場所。テーブルとメタデータは、この場所のサブディレクトリに格納されます。 `storage`設定が指定されていない場合、システムはデフォルトで `dbfs:/pipelines/`内のロケーションになります。パイプラインの作成後に `storage` 設定を変更することはできません。
`channel` タイプ： `string` 使用する Lakeflow 宣言型パイプラインランタイムのバージョン。サポートされている値は次のとおりです。 - ランタイムバージョンに対する今後の変更でパイプラインをテストするには `preview`を設定します。 - 現在のランタイムバージョンを使用するには `current`を設定します。 `channel`フィールドはオプションです。デフォルト値は `current`. Databricks 本番運用ワークロードには、現在のランタイムバージョンを使用することをお勧めします。
`edition` タイプ `string` パイプラインを実行するLakeflow 宣言型パイプライン製品エディション。この設定により、パイプラインの要件に基づいて最適な製品エディションを選択できます。 - ストリーミング取り込みワークロードの実行には `CORE` を選択します。 - ストリーミングインジェストワークロードとチェンジデータキャプチャ (CDC) ワークロードを実行するには`PRO`を選択します。 - `ADVANCED` ストリーミングインジェストワークロード、 CDC ワークロード、およびデータ品質制約を適用するために Lakeflow 宣言型パイプラインの期待値を必要とするワークロードを実行します。 `edition`フィールドはオプションです。デフォルト値は `ADVANCED`.
`photon` タイプ： `boolean` パイプラインの実行で Photon を使用するかどうかを示すフラグ。 Photon は、Databricks のハイパフォーマンス Spark エンジンです。 Photon 対応パイプラインは、非 Photon パイプラインとは異なるレートで請求されます。 `photon`フィールドはオプションです。デフォルト値は `false`です。
`pipelines.maxFlowRetryAttempts` タイプ： `int` パイプラインの更新中に再試行可能なエラーが発生した場合、これはパイプラインの更新が失敗する前にフローを再試行する最大回数ですデフォルト: 再試行回数は 2 回です。再試行可能なエラーが発生すると、 Lakeflow 宣言型パイプラインランタイムは、元の試行を含めてフローの実行を 3 回試行します。
`pipelines.numUpdateRetryAttempts` タイプ： `int` 更新中に再試行可能なエラーが発生した場合、これは、更新が永続的に失敗する前に更新を再試行する最大回数です。再試行は、完全な更新として実行されます。このパラメーターは、本番運用モードで実行されているパイプラインにのみ適用されます。パイプラインが開発モードで実行されている場合、または `Validate` 更新を実行している場合、再試行は試みられません。デフォルト： - トリガーされたパイプラインの場合は 5 つ。 - 連続パイプラインの場合は無制限。

Lakeflow 宣言型パイプラインテーブルのプロパティ

Delta Lake でサポートされているテーブルプロパティに加えて、次のテーブルプロパティを設定できます。

テーブルのプロパティ
`pipelines.autoOptimize.zOrderCols` デフォルト: なしこのテーブルを Z-order する列名のコンマ区切りリストを含むオプションの文字列。例えば `pipelines.autoOptimize.zOrderCols = "year,month"`
`pipelines.reset.allowed` デフォルト： `true` このテーブルで完全更新を許可するかどうかを制御します。
`pipelines.autoOptimize.managed` デフォルト： `true` このテーブルの自動的にスケジュールされた最適化を有効または無効にします。予測的最適化によって管理されるパイプラインの場合、このプロパティは使用されません。

パイプラインのトリガー間隔

パイプライントリガー間隔は、パイプライン全体に対して指定することも、データセット宣言の一部として指定することもできます。連続パイプラインのトリガー間隔の設定を参照してください。

`pipelines.trigger.interval`
デフォルトはフロータイプに基づいています。 - ストリーミングクエリの場合は 5 秒です。 - すべての入力データが Delta ソースからのものである場合、完全なクエリの場合は 1 分です。 - 一部のデータソースがデルタ以外の可能性がある場合の完全なクエリにおいて10分となります。値は、数値に時間単位を加えたものです。有効な時間単位は次のとおりです。 - `second`、 `seconds` - `minute`、 `minutes` - `hour`、 `hours` - `day`、 `days` 値を定義するときには、単数形または複数形の単位を使用できます。たとえば、次のようになります。 - `{"pipelines.trigger.interval" : "1 hour"}` - `{"pipelines.trigger.interval" : "10 seconds"}` - `{"pipelines.trigger.interval" : "30 second"}` - `{"pipelines.trigger.interval" : "1 minute"}` - `{"pipelines.trigger.interval" : "10 minutes"}` - `{"pipelines.trigger.interval" : "10 minute"}`

pipelines.trigger.interval

デフォルトはフロータイプに基づいています。 - ストリーミングクエリの場合は 5 秒です。 - すべての入力データが Delta ソースからのものである場合、完全なクエリの場合は 1 分です。 - 一部のデータソースがデルタ以外の可能性がある場合の完全なクエリにおいて10分となります。値は、数値に時間単位を加えたものです。有効な時間単位は次のとおりです。 - second、 seconds - minute、 minutes - hour、 hours - day、 days 値を定義するときには、単数形または複数形の単位を使用できます。たとえば、次のようになります。 - {"pipelines.trigger.interval" : "1 hour"} - {"pipelines.trigger.interval" : "10 seconds"} - {"pipelines.trigger.interval" : "30 second"} - {"pipelines.trigger.interval" : "1 minute"} - {"pipelines.trigger.interval" : "10 minutes"} - {"pipelines.trigger.interval" : "10 minute"}

ユーザーが設定できない属性のクラスター

Lakeflow宣言型パイプラインはクラスターのライフサイクルを管理するため、多くのクラスター設定は宣言型パイプラインによって設定され Lakeflow パイプライン構成またはパイプラインで使用されるクラスターポリシーでユーザーが手動で構成することはできません。次の表に、これらの設定と、手動で設定できない理由を示します。

フィールド
`cluster_name` Lakeflow 宣言型パイプラインは、パイプラインの更新を実行するために使用されるクラスターの名前を設定します。これらの名前は上書きできません。
`data_security_mode` `access_mode` これらの値は、システムによって自動的に設定されます。
`spark_version` Lakeflow 宣言型パイプラインクラスターは、最新の機能を含むように継続的に更新される Databricks Runtime のカスタムバージョンで実行されます。 Spark のバージョンは Databricks Runtime バージョンにバンドルされており、オーバーライドすることはできません。
`autotermination_minutes` Lakeflow宣言型パイプラインがクラスターの自動終了と再利用ロジックを管理するため、クラスターの自動終了時間をオーバーライドすることはできません。
`runtime_engine` このフィールドは、パイプラインで Photon を有効にすることで制御できますが、この値を直接設定することはできません。
`effective_spark_version` この値は、システムによって自動的に設定されます。
`cluster_source` このフィールドはシステムによって設定され、読み取り専用です。
`docker_image` Lakeflow宣言型パイプラインがクラスターのライフサイクルを管理するため、パイプラインクラスターでカスタムコンテナを使用することはできません。
`workload_type` この値はシステムによって設定され、オーバーライドすることはできません。

Lakeflow 宣言型パイプラインの構成​

Lakeflow 宣言型パイプライン テーブルのプロパティ​

パイプラインのトリガー間隔​

ユーザーが設定できない属性のクラスター​

Lakeflow 宣言型パイプラインの構成

Lakeflow 宣言型パイプラインテーブルのプロパティ

パイプラインのトリガー間隔

ユーザーが設定できない属性のクラスター