メインコンテンツまでスキップ

DLT プロパティ リファレンス

この記事では、Databricks の DLT JSON 設定仕様とテーブル プロパティのリファレンスを提供します。これらのさまざまなプロパティと構成の使用の詳細については、次の記事を参照してください。

DLT パイプラインの構成

フィールド

id タイプ: string このパイプラインのグローバル一意識別子。 識別子はシステムによって割り当てられ、変更することはできません。

name タイプ: string このパイプラインのわかりやすい名前。 この名前は、UI でパイプライン ジョブを識別するために使用できます。

configuration タイプ: object パイプラインを実行するクラスタリングの Spark 構成に追加する設定のオプションの一覧。 これらの設定は DLT ランタイムによって読み取られ、Spark 構成を介してパイプライン クエリで使用できます。 要素は key:value ペアとして書式設定する必要があります。

libraries タイプ: array of objects パイプライン コードと必要なアーティファクトを含むノートブックの配列。

clusters タイプ: array of objects パイプラインを実行するためのクラスターの仕様の配列。 これが指定されていない場合、パイプラインはパイプラインのデフォルト クラスター構成を自動的に選択します。

development タイプ: boolean パイプラインを実行するかどうかを示すフラグ development または production モード。 デフォルト値は true

notifications タイプ: array of objects パイプラインの更新が完了したとき、再試行可能なエラーで失敗したとき、再試行できないエラーで失敗したとき、またはフローが失敗したときの Eメール 通知の仕様の省略可能な配列。

continuous タイプ: boolean パイプラインを連続して実行するかどうかを示すフラグ。 デフォルト値は falseです。

catalog タイプ: string パイプラインのデフォルト カタログの名前で、パイプラインのすべてのデータセットとメタデータが発行されます。 この値を設定すると、パイプラインの Unity Catalog が有効になります。 未設定のままにすると、パイプラインは storage で指定された場所を使用して従来の Hive metastore にパブリッシュします。 従来の公開モードでは、現在のパイプラインのすべてのデータセットが公開されるターゲット スキーマを含むカタログを指定します。 LIVE スキーマ (レガシー)を参照してください。

schema タイプ: string パイプラインのデフォルト スキーマの名前。パイプラインのすべてのデータセットとメタデータがデフォルトによって発行されます。 ターゲット・カタログとスキーマの設定を参照してください。

target (レガシー)。 タイプ: string 現在のパイプラインで定義されているすべてのデータセットが公開されるターゲットスキーマの名前。 schema ではなく target を設定すると、従来の発行モードを使用するようにパイプラインが構成されます。LIVE スキーマ (レガシー)を参照してください。

storage (レガシー)。 タイプ: string パイプラインの実行に必要な出力データとメタデータが格納される DBFS またはクラウド ストレージ上の場所。 テーブルとメタデータは、この場所のサブディレクトリに格納されます。 storage設定が指定されていない場合、システムはデフォルトで dbfs:/pipelines/内のロケーションになります。 パイプラインの作成後に storage 設定を変更することはできません。

channel タイプ: string 使用する DLT ランタイムのバージョン。サポートされている値は次のとおりです。 - ランタイム バージョンに対する今後の変更でパイプラインをテストする preview 。 - 現在のランタイムバージョンを使用する currentchannelフィールドはオプションです。デフォルト値は current. Databricks 本番運用ワークロードには、現在のランタイムバージョンを使用することをお勧めします。

edition タイプ string パイプラインを実行するための DLT 製品エディション。この設定により、パイプラインの要件に基づいて最適な製品エディションを選択できます。 - ストリーミング取り込みワークロードの実行 CORE 。 - PRO ストリーミング インジェスト ワークロードとチェンジデータキャプチャ (CDC) ワークロードを実行します。 - ストリーミング インジェスト ワークロード、CDC ワークロード、およびデータ品質制約を適用するために DLT の期待を必要とするワークロードを実行する ADVANCEDeditionフィールドはオプションです。デフォルト値は ADVANCED.

photon タイプ: boolean パイプラインの実行に Photon とは? を使用するかどうかを示すフラグ。 Photon は、Databricks のハイパフォーマンス Spark エンジンです。 Photon 対応パイプラインは、非 Photon パイプラインとは異なるレートで請求されます。 photonフィールドはオプションです。デフォルト値は falseです。

pipelines.maxFlowRetryAttempts タイプ: int パイプラインの更新中に再試行可能なエラーが発生した場合、これはパイプラインの更新が失敗する前にフローを再試行する最大回数です デフォルト: 再試行回数は 2 回です。 再試行可能なエラーが発生すると、DLT ランタイムはフローの実行を 3 回試行します (元の試行も含めて)。

pipelines.numUpdateRetryAttempts タイプ: int 更新中に再試行可能なエラーが発生した場合、これは、更新が永続的に失敗する前に更新を再試行する最大回数です。 再試行は、完全な更新として実行されます。 このパラメーターは、本番運用モードで実行されているパイプラインにのみ適用されます。 パイプラインが開発モードで実行されている場合、または Validate 更新を実行している場合、再試行は試みられません。 デフォルト: - トリガーされたパイプラインの場合は 5 つ。 - 連続パイプラインの場合は無制限。

DLT テーブルのプロパティ

Delta Lake でサポートされているテーブル プロパティに加えて、次のテーブル プロパティを設定できます。

テーブルのプロパティ

pipelines.autoOptimize.managed デフォルト: true このテーブルの自動的にスケジュールされた最適化を有効または無効にします。

pipelines.autoOptimize.zOrderCols デフォルト: なし このテーブルを Z-order する列名のコンマ区切りリストを含むオプションの文字列。 例えば pipelines.autoOptimize.zOrderCols = "year,month"

pipelines.reset.allowed デフォルト: true このテーブルで完全更新を許可するかどうかを制御します。

パイプラインのトリガー間隔

パイプライン トリガー間隔は、DLT パイプライン全体に対して指定することも、データセット宣言の一部として指定することもできます。「連続パイプラインのトリガー間隔の設定」を参照してください。

pipelines.trigger.interval

デフォルトはフロータイプに基づいています。 - ストリーミング クエリの場合は 5 秒。 - すべての入力データが Delta ソースからのものである場合、完全なクエリの場合は 1 分。 - 一部のデータソースがデルタ以外の可能性がある場合の完全なクエリに10分。 値は、数値に時間単位を加えたものです。 有効な時間単位は次のとおりです。 - secondseconds - minuteminutes - hourhours - daydays 値を定義するときには、単数形または複数形の単位を使用できます。たとえば、次のようになります。 - {"pipelines.trigger.interval" : "1 hour"} - {"pipelines.trigger.interval" : "10 seconds"} - {"pipelines.trigger.interval" : "30 second"} - {"pipelines.trigger.interval" : "1 minute"} - {"pipelines.trigger.interval" : "10 minutes"} - {"pipelines.trigger.interval" : "10 minute"}

ユーザーが設定できない属性のクラスター

DLT はクラスタリングのライフサイクルを管理するため、多くのクラスタリング設定は DLT によって設定され、パイプライン構成またはパイプラインで使用されるクラスターポリシーでユーザーが手動で構成することはできません。 次の表に、これらの設定と、手動で設定できない理由を示します。

フィールド

cluster_name DLT は、パイプライン更新の実行に使用されるクラスタリングの名前を設定します。 これらの名前は上書きできません。

data_security_mode access_mode これらの値は、システムによって自動的に設定されます。

spark_version DLT クラスタリングは、最新の機能を含むように継続的に更新されるカスタムバージョンの Databricks Runtime で実行されます。 Spark のバージョンは Databricks Runtime バージョンにバンドルされており、オーバーライドすることはできません。

autotermination_minutes DLT はクラスタリングの自動終了と再利用ロジックを管理するため、クラスタリングの自動終了時間をオーバーライドすることはできません。

runtime_engine このフィールドは、パイプラインで Photon を有効にすることで制御できますが、この値を直接設定することはできません。

effective_spark_version この値は、システムによって自動的に設定されます。

cluster_source このフィールドはシステムによって設定され、読み取り専用です。

docker_image DLT はクラスタリングのライフサイクルを管理するため、パイプライン クラスタリングでカスタム コンテナを使用することはできません。

workload_type この値はシステムによって設定され、オーバーライドすることはできません。