メインコンテンツまでスキップ

LakeFlow 宣言型パイプラインのプロパティリファレンス

この記事では、 JSONで仕様とDatabricksテーブルのプロパティを設定するLakeFlow 宣言型パイプライン のリファレンスを提供します。これらのさまざまなプロパティと構成の使用の詳細については、次の記事を参照してください。

LakeFlow 宣言型パイプラインの構成

フィールド

id タイプ: string このパイプラインのグローバル一意識別子。 識別子はシステムによって割り当てられ、変更することはできません。

name タイプ: string このパイプラインのわかりやすい名前。 この名前は、UI でパイプライン ジョブを識別するために使用できます。

configuration タイプ: object パイプラインを実行するクラスターの Spark 構成に追加する設定のオプションの一覧。 これらの設定は、 LakeFlow 宣言型パイプライン ランタイムによって読み取られ、 Spark 構成を通じてパイプライン クエリで使用できます。 要素は key:value ペアとして書式設定する必要があります。

libraries タイプ: array of objects パイプライン コードと必要なアーティファクトを含むノートブックの配列。

clusters タイプ: array of objects パイプラインを実行するためのクラスターの仕様の配列。 これが指定されていない場合、パイプラインはパイプラインのデフォルト クラスター構成を自動的に選択します。

development タイプ: boolean パイプラインを実行するかどうかを示すフラグ development または production モード。 デフォルト値は true

notifications タイプ: array of objects パイプラインの更新が完了したとき、再試行可能なエラーで失敗したとき、再試行できないエラーで失敗したとき、またはフローが失敗したときの Eメール 通知の仕様の省略可能な配列。

continuous タイプ: boolean パイプラインを連続して実行するかどうかを示すフラグ。 デフォルト値は falseです。

catalog タイプ: string パイプラインのデフォルト カタログの名前で、パイプラインのすべてのデータセットとメタデータが発行されます。 この値を設定すると、パイプラインの Unity Catalog が有効になります。 未設定のままにすると、パイプラインは storage で指定された場所を使用して従来の Hive metastore にパブリッシュします。 従来の公開モードでは、現在のパイプラインのすべてのデータセットが公開されるターゲット スキーマを含むカタログを指定します。 LIVE スキーマ (レガシー)を参照してください。

schema タイプ: string パイプラインのデフォルト スキーマの名前。パイプラインのすべてのデータセットとメタデータがデフォルトによって発行されます。 ターゲット・カタログとスキーマの設定を参照してください。

target (レガシー)。 タイプ: string 現在のパイプラインで定義されているすべてのデータセットが公開されるターゲットスキーマの名前。 schema ではなく target を設定すると、従来の発行モードを使用するようにパイプラインが構成されます。LIVE スキーマ (レガシー)を参照してください。

storage (レガシー)。 タイプ: string パイプラインの実行に必要な出力データとメタデータが格納される DBFS またはクラウド ストレージ上の場所。 テーブルとメタデータは、この場所のサブディレクトリに格納されます。 storage設定が指定されていない場合、システムはデフォルトで dbfs:/pipelines/内のロケーションになります。 パイプラインの作成後に storage 設定を変更することはできません。

channel タイプ: string 使用する LakeFlow 宣言型パイプライン ランタイムのバージョン。 サポートされている値は次のとおりです。 - ランタイム バージョンに対する今後の変更でパイプラインをテストするには previewを設定します。 - 現在のランタイムバージョンを使用するには currentを設定します。 channelフィールドはオプションです。デフォルト値は current. Databricks 本番運用ワークロードには、現在のランタイムバージョンを使用することをお勧めします。

edition タイプ string パイプラインを実行するLakeFlow 宣言型パイプライン 製品エディション。 この設定により、パイプラインの要件に基づいて最適な製品エディションを選択できます。 - ストリーミング取り込みワークロードの実行には CORE を選択します。 - ストリーミング インジェスト ワークロードとチェンジデータキャプチャ (CDC) ワークロードを実行するにはPROを選択します。 - ADVANCED ストリーミング インジェスト ワークロード、 CDC ワークロード、およびデータ品質制約を適用するために LakeFlow 宣言型パイプラインの期待値を必要とするワークロードを実行します。 editionフィールドはオプションです。デフォルト値は ADVANCED.

photon タイプ: boolean パイプラインの実行で Photon を使用するかどうかを示すフラグ。 Photon は、Databricks のハイパフォーマンス Spark エンジンです。 Photon 対応パイプラインは、非 Photon パイプラインとは異なるレートで請求されます。 photonフィールドはオプションです。デフォルト値は falseです。

pipelines.maxFlowRetryAttempts タイプ: int パイプラインの更新中に再試行可能なエラーが発生した場合、これはパイプラインの更新が失敗する前にフローを再試行する最大回数です デフォルト: 再試行回数は 2 回です。再試行可能なエラーが発生すると、 LakeFlow 宣言型パイプライン ランタイムは、元の試行を含めてフローの実行を 3 回試行します。

pipelines.numUpdateRetryAttempts タイプ: int 更新中に再試行可能なエラーが発生した場合、これは、更新が永続的に失敗する前に更新を再試行する最大回数です。 再試行は、完全な更新として実行されます。 このパラメーターは、本番運用モードで実行されているパイプラインにのみ適用されます。 パイプラインが開発モードで実行されている場合、または Validate 更新を実行している場合、再試行は試みられません。 デフォルト: - トリガーされたパイプラインの場合は 5 つ。 - 連続パイプラインの場合は無制限。

LakeFlow 宣言型パイプライン テーブルのプロパティ

Delta Lake でサポートされているテーブル プロパティに加えて、次のテーブル プロパティを設定できます。

テーブルのプロパティ

pipelines.autoOptimize.zOrderCols デフォルト: なし このテーブルを Z-order する列名のコンマ区切りリストを含むオプションの文字列。 例えば pipelines.autoOptimize.zOrderCols = "year,month"

pipelines.reset.allowed デフォルト: true このテーブルで完全更新を許可するかどうかを制御します。

pipelines.autoOptimize.managed デフォルト: true このテーブルの自動的にスケジュールされた最適化を有効または無効にします。 予測的最適化によって管理されるパイプラインの場合、このプロパティは使用されません。

パイプラインのトリガー間隔

パイプライントリガー間隔は、パイプライン全体に対して指定することも、データセット宣言の一部として指定することもできます。連続パイプラインのトリガー間隔の設定を参照してください。

pipelines.trigger.interval

デフォルトはフロータイプに基づいています。 - ストリーミング クエリの場合は 5 秒です。 - すべての入力データが Delta ソースからのものである場合、完全なクエリの場合は 1 分です。 - 一部のデータソースがデルタ以外の可能性がある場合の完全なクエリにおいて10分となります。 値は、数値に時間単位を加えたものです。 有効な時間単位は次のとおりです。 - secondseconds - minuteminutes - hourhours - daydays 値を定義するときには、単数形または複数形の単位を使用できます。たとえば、次のようになります。 - {"pipelines.trigger.interval" : "1 hour"} - {"pipelines.trigger.interval" : "10 seconds"} - {"pipelines.trigger.interval" : "30 second"} - {"pipelines.trigger.interval" : "1 minute"} - {"pipelines.trigger.interval" : "10 minutes"} - {"pipelines.trigger.interval" : "10 minute"}

ユーザーが設定できない属性のクラスター

LakeFlow宣言型パイプラインはクラスターのライフサイクルを管理するため、多くのクラスター設定は宣言型パイプラインによって設定され LakeFlow パイプライン構成またはパイプラインで使用されるクラスターポリシー でユーザーが手動で構成することはできません。 次の表に、これらの設定と、手動で設定できない理由を示します。

フィールド

cluster_name LakeFlow 宣言型パイプラインは、パイプラインの更新を実行するために使用されるクラスターの名前を設定します。 これらの名前は上書きできません。

data_security_mode access_mode これらの値は、システムによって自動的に設定されます。

spark_version LakeFlow 宣言型パイプライン クラスターは、最新の機能を含むように継続的に更新される Databricks Runtime のカスタム バージョンで実行されます。 Spark のバージョンは Databricks Runtime バージョンにバンドルされており、オーバーライドすることはできません。

autotermination_minutes LakeFlow宣言型パイプラインがクラスターの自動終了と再利用ロジックを管理するため、クラスターの自動終了時間をオーバーライドすることはできません。

runtime_engine このフィールドは、パイプラインで Photon を有効にすることで制御できますが、この値を直接設定することはできません。

effective_spark_version この値は、システムによって自動的に設定されます。

cluster_source このフィールドはシステムによって設定され、読み取り専用です。

docker_image LakeFlow宣言型パイプラインがクラスターのライフサイクルを管理するため、パイプライン クラスターでカスタム コンテナを使用することはできません。

workload_type この値はシステムによって設定され、オーバーライドすることはできません。