Delta Live Tables プロパティのリファレンス

この記事では、Databricks Delta Live Tables JSON 設定仕様とテーブル プロパティのリファレンスを提供します。 これらのさまざまなプロパティと構成の使用方法の詳細については、次の記事を参照してください。

Delta Live Tables パイプライン構成

田畑

id

種類: string

このパイプラインのグローバル一意識別子。 ID はシステムによって割り当てられ、変更することはできません。

name

種類: string

このパイプラインのわかりやすい名前。 この名前は、UI でパイプライン ジョブを識別するために使用できます。

storage

種類: string

パイプラインの実行に必要な出力データとメタデータが格納される DBFS またはクラウド ストレージ上の場所。 テーブルとメタデータは、この場所のサブディレクトリに格納されます。

storage 設定が指定されていない場合、システムはデフォルトで dbfs:/pipelines/内のロケーションになります。

パイプラインの作成後に storage 設定を変更することはできません。

configuration

種類: object

パイプラインを実行するクラスターの Spark 構成に追加する設定のオプションの一覧。 これらの設定は Delta Live Tables ランタイムによって読み取られ、Spark 構成を介してパイプラインで使用できます。

要素は key:value ペアとしてフォーマットする必要があります。

libraries

種類: array of objects

パイプライン コードと必要な成果物を含むノートブックの配列。

clusters

種類: array of objects

クラスターがパイプラインを実行するための仕様の配列。

これが指定されていない場合、パイプラインはパイプラインの既定のクラスター構成を自動的に選択します。

development

種類: boolean

パイプラインを development モードと production モードのどちらで実行するかを示すフラグ。

デフォルト値は true

notifications

種類: array of objects

パイプラインの更新が完了したとき、再試行可能なエラーで失敗したとき、再試行不可能なエラーで失敗したとき、またはフローが失敗した場合の Email 通知の仕様のオプションの配列。

continuous

種類: boolean

パイプラインを継続的に実行するかどうかを示すフラグ。

デフォルト値は falseです。

target

種類: string

パイプライン出力データを保持するためのデータベースの名前。 target 設定を構成すると、Databricks UI からパイプライン出力データを表示およびクエリできます。

channel

種類: string

使用する Delta Live Tables ランタイムのバージョン。 サポートされている値は次のとおりです。

  • preview をクリックして、ランタイムバージョンに対する今後の変更でパイプラインをテストします。

  • current 現在のランタイム バージョンを使用します。

channel フィールドはオプションです。デフォルト値は currentです。 Databricks では、運用環境のワークロードに現在のランタイム バージョンを使用することをお勧めします。

edition

タイプ string

パイプラインを実行する Delta Live Tables 製品エディション。 この設定では、パイプラインの要件に基づいて最適な製品エディションを選択できます。

  • CORE ストリーミング取り込みワークロードを実行します。

  • PRO ストリーミング取り込みとチェンジデータキャプチャ (CDC) ワークロードを実行します。

  • ADVANCED ストリーミング取り込みワークロード、CDC ワークロード、およびデータ品質の制約を適用するために Delta Live Tables のエクスペクテーションを必要とするワークロードを実行します。

edition フィールドはオプションです。デフォルト値は ADVANCEDです。

photon

種類: boolean

パイプラインを実行するために 「What is Photon?」 を使用するかどうかを示すフラグ。 Photon は Databricks の高性能 Spark エンジンです。 Photon対応パイプラインは、Photon以外のパイプラインとは異なるレートで課金されます。

photon フィールドはオプションです。デフォルト値は falseです。

pipelines.maxFlowRetryAttempts

種類: int

再試行可能なエラーが発生したときにパイプラインの更新が失敗する前にフローを再試行する最大試行回数。

デフォルト値は 2 です。 デフォルトにより、再試行可能なエラーが発生すると、Delta Live Tables ランタイムは、最初の試行を含めてフローの実行を 3 回試行します。

pipelines.numUpdateRetryAttempts

種類: int

再試行可能なエラーが発生したときに更新が失敗する前に更新を再試行する最大回数。 再試行は完全な更新として実行されます。

デフォルトは 5 です。 このパラメーターは、実稼働モードで実行されるトリガー更新にのみ適用されます。 パイプラインが開発モードで実行されている場合、再試行はありません。

Delta Live Tables テーブルのプロパティ

Delta Lake でサポートされているテーブル プロパティに加えて、次のテーブル プロパティを設定できます。

テーブルのプロパティ

pipelines.autoOptimize.managed

デフォルト: true

このテーブルの自動的にスケジュールされた最適化を有効または無効にします。

pipelines.autoOptimize.zOrderCols

デフォルト: なし

このテーブルを Z-order する列名のコンマ区切りリストを含むオプションの文字列。 例えば pipelines.autoOptimize.zOrderCols = "year,month"

pipelines.reset.allowed

デフォルト: true

このテーブルに対して完全更新を許可するかどうかを制御します。

CDC テーブルのプロパティ

note:: 廃棄管理の動作を制御するこれらのプロパティは廃止され、パイプライン設定に置き換えられました。 既存または新規のパイプラインでは、新しいパイプライン設定を使用する必要があります。 SCD タイプ 1 クエリーの廃棄標識管理の制御を参照してください。

CDC を使用する場合の DELETE イベントの廃棄標識管理の動作を制御するために、次のテーブル プロパティが追加されました。

テーブルのプロパティ

pipelines.cdc.tombstoneGCThresholdInSeconds

デフォルト: 5 分

この値は、順不同のデータ間の最大予想間隔と一致するように設定します。

pipelines.cdc.tombstoneGCFrequencyInSeconds

デフォルト: 60 秒

廃棄標識のクリーンアップをチェックする頻度を制御します。

「Delta Live Tables の APPLY CHANGES API を使用した簡略化されたチェンジデータキャプチャ」を参照してください。

パイプラインのトリガー間隔

パイプライン トリガー間隔は、Delta Live Tables パイプライン全体に対して、またはデータセット宣言の一部として指定できます。 「 パイプラインのトリガー間隔」を参照してください。

pipelines.trigger.interval

デフォルトはフロータイプに基づいています。

  • ストリーミングクエリの場合は 5 秒です。

  • すべての入力データがデルタソースからの場合、完全なクエリーの場合は1分。

  • 一部の DELTA 以外の MEGA が 5 個になる可能性がある場合の完全なクエリに 10 分。

値は、数値に時間単位を加えたものです。 有効な時間単位は次のとおりです。

  • second, seconds

  • minute, minutes

  • hour, hours

  • day, days

値を定義するときに単数形または複数形の単位を使用できます。

  • {"pipelines.trigger.interval" : "1 hour"}

  • {"pipelines.trigger.interval" : "10 seconds"}

  • {"pipelines.trigger.interval" : "30 second"}

  • {"pipelines.trigger.interval" : "1 minute"}

  • {"pipelines.trigger.interval" : "10 minutes"}

  • {"pipelines.trigger.interval" : "10 minute"}

ユーザーが設定できないクラスター属性

Delta Live Tablesクラスターのライフサイクルを管理するため、多くのクラスター設定はDelta Live Tablesによって設定され、パイプライン構成またはパイプラインで使用されるクラスター ポリシーのいずれかでユーザーが手動で構成することはできません。 次の表に、これらの設定と、手動で設定できない理由を示します。

田畑

cluster_name

Delta Live Tables は、パイプラインの更新の実行に使用されるクラスターの名前を設定します。 これらの名前は上書きできません。

data_security_mode access_mode

これらの値は、システムによって自動的に設定されます。

spark_version

Delta Live Tables クラスターは、最新の機能を含むように継続的に更新されるカスタムバージョンの Databricks Runtime で実行されます。 Spark のバージョンは Databricks Runtime バージョンにバンドルされており、オーバーライドすることはできません。

autotermination_minutes

Delta Live Tables はクラスターの自動終了と再利用のロジックを管理するため、クラスターの自動終了時間をオーバーライドすることはできません。

runtime_engine

パイプラインでPhotonを有効にすることでこのフィールドを制御できますが、この値を直接設定することはできません。

effective_spark_version

この値は、システムによって自動的に設定されます。

cluster_source

このフィールドはシステムによって設定され、読み取り専用です。

docker_image

Delta Live Tables はクラスターのライフサイクルを管理するため、パイプラインクラスターでカスタムコンテナを使用することはできません。

workload_type

この値はシステムによって設定され、オーバーライドすることはできません。