Delta Lake でデータを選択的に上書きする

DatabricksはDelta Lake機能を利用して、選択的上書きのための2つの異なるオプションをサポートします：

replaceWhereオプションは、指定された述語に一致するすべてのレコードをアトミックに置き換えます。
動的パーティションの上書きを使用して、テーブルのパーティション分割方法に基づいてデータのディレクトリを置き換えることができます。

ほとんどの操作では、DatabricksはreplaceWhereを使用して上書きするデータを指定することを推奨します。

重要

データが誤って上書きされた場合は、復元を使用して変更を元に戻すことができます。

任意かつ選択的な上書き: `replaceWhere`

任意の式に一致するデータのみを選択的に上書きできます。

注記

SQL には Databricks Runtime 12.2 LTS 以降が必要です。

次のコマンドは、start_dateでパーティショニングされたターゲットテーブルの1月のイベントをreplace_dataのデータにアトミックに置き換える：

Python
Scala
SQL

Python
(replace_data.write
  .mode("overwrite")
  .option("replaceWhere", "start_date >= '2017-01-01' AND end_date <= '2017-01-31'")
  .table("events")
)

Scala
replace_data.write
  .mode("overwrite")
  .option("replaceWhere", "start_date >= '2017-01-01' AND end_date <= '2017-01-31'")
  .table("events")

SQL
INSERT INTO TABLE events REPLACE WHERE start_date >= '2017-01-01' AND end_date <= '2017-01-31' SELECT * FROM replace_data

このサンプルコードでは、 replace_dataでデータを書き出し、すべての行が述語と一致することを検証し、 overwrite セマンティクスを使用してアトミック置換を実行します。操作内のいずれかの値が制約の範囲外にある場合、この操作はデフォルトでエラーで失敗します。

この動作を変更して、述部範囲内の値を overwrite し、指定した範囲外のレコード insert ことができます。これを行うには、次のいずれかの設定を使用して spark.databricks.delta.replaceWhere.constraintCheck.enabled を false に設定し、制約チェックを無効にします。

Python
Scala
SQL

Python
spark.conf.set("spark.databricks.delta.replaceWhere.constraintCheck.enabled", False)

Scala
spark.conf.set("spark.databricks.delta.replaceWhere.constraintCheck.enabled", false)

SQL
SET spark.databricks.delta.replaceWhere.constraintCheck.enabled=false

従来の動作

従来のデフォルトの動作では replaceWhere 述語に一致するデータをパーティション列のみ上書きする必要がありました。このレガシモデルでは、次のコマンドは、 dateによってパーティション分割されたターゲットテーブルの 1 月 1 月を dfのデータにアトミックに置き換えます。

Python
Scala

Python
(df.write
  .mode("overwrite")
  .option("replaceWhere", "birthDate >= '2017-01-01' AND birthDate <= '2017-01-31'")
  .table("people10m")
)

Scala
df.write
  .mode("overwrite")
  .option("replaceWhere", "birthDate >= '2017-01-01' AND birthDate <= '2017-01-31'")
  .table("people10m")

以前の動作に戻す場合は、 spark.databricks.delta.replaceWhere.dataColumns.enabled フラグを無効にすることができます。

Python
Scala
SQL

Python
spark.conf.set("spark.databricks.delta.replaceWhere.dataColumns.enabled", False)

Scala
spark.conf.set("spark.databricks.delta.replaceWhere.dataColumns.enabled", false)

SQL
SET spark.databricks.delta.replaceWhere.dataColumns.enabled=false

動的パーティションの上書き

動的パーティション上書きは、書き込みによって新しいデータがコミットされるパーティションのみが更新されます。これらのパーティション内の既存のデータはすべて上書きされ、他のデータは変更されません。

Databricks では、次の 2 つのアプローチがサポートされています。

REPLACE USING (推奨) - Databricks SQLウェアハウス、サーバレスコンピュート、クラシックコンピュートなど、すべてのコンピュートタイプで動作します。Spark セッション構成を設定する必要はありません。
partitionOverwriteMode (レガシー) - クラシックコンピュートとSparkセッション構成の設定が必要です。Databricks SQL またはサーバレスコンピュートではサポートされていません。

以下のセクションでは、各アプローチの使用方法を示します。

動的パーティションの上書き `REPLACE USING`

Databricks Runtime 16.3 以降では、 REPLACE USINGを使用したパーティション分割テーブルの動的パーティション上書きがサポートされています。この方法では、 Spark セッション設定を設定することなく、すべてのコンピュートタイプでデータを選択的に上書きできます。 REPLACE USING は、 Databricks SQL ウェアハウス、サーバレスコンピュート、およびクラシックコンピュートで機能するコンピュートに依存しないアトミック上書き動作を可能にします。

REPLACE USING 受信データの対象となるパーティションのみを上書きします。他のすべてのパーティションは変更されません。

次の例は、動的パーティション上書きを REPLACE USINGで使用する方法を示しています。現在、SQLのみを使用でき、PythonやScalaは使用できません。詳細については、SQL 言語リファレンスの INSERT を参照してください。

SQL
INSERT INTO TABLE events
  REPLACE USING (event_id, start_date)
  SELECT * FROM source_data

動的パーティションの上書きについては、次の制約と動作に留意してください。

USING 句でテーブルのパーティション列の完全なセットを指定する必要があります。
書き込まれたデータが予期されるパーティションにのみ触れることを常に検証します。間違ったパーティションの 1 つの行が、意図せずにパーティション全体を上書きする可能性があります。

NULL``REPLACE USING値を等しく扱うなど、がサポートするものよりもカスタマイズ可能なマッチングロジックが必要な場合は、代わりに補完的なREPLACE ONを使用します。詳細については、 INSERT を参照してください。

動的パーティションの上書き `partitionOverwriteMode` (レガシ)

備考

プレビュー

この機能はパブリックプレビュー段階です。

Databricks Runtime 11.3 LTS 以降では、上書きモード (SQL での INSERT OVERWRITE 、または df.write.mode("overwrite")を使用した DataFrame 書き込み) を使用して、パーティション分割されたテーブルの動的パーティション上書きがサポートされています。このタイプの上書きは、クラシックコンピュートでのみ使用でき、 Databricks SQL ウェアハウスやサーバレスコンピュートでは使用できません。

Spark セッション設定 spark.sql.sources.partitionOverwriteMode を dynamicに設定して、動的パーティション上書きモードを設定します。または、 DataFrameWriter オプション partitionOverwriteMode を dynamicに設定することもできます。クエリ固有のオプションが存在する場合、セッション構成で定義されているモードがオーバーライドされます。spark.sql.sources.partitionOverwriteModeのデフォルトは staticです。

次の例は、 partitionOverwriteModeの使用を示しています。

SQL
Python
Scala

SQL
SET spark.sql.sources.partitionOverwriteMode=dynamic;
INSERT OVERWRITE TABLE default.people10m SELECT * FROM morePeople;

Python
(df.write
  .mode("overwrite")
  .option("partitionOverwriteMode", "dynamic")
  .saveAsTable("default.people10m")
)

Scala
df.write
  .mode("overwrite")
  .option("partitionOverwriteMode", "dynamic")
  .saveAsTable("default.people10m")

partitionOverwriteModeには、次の制約と動作に留意してください。

overwriteSchemaをtrueに設定することはできません。
同じDataFrameWriter操作でpartitionOverwriteModeとreplaceWhereの両方を指定することはできません。
DataFrameWriter オプションを使用してreplaceWhere条件を指定すると、Delta Lake はその条件を適用して、上書きするデータを制御します。このオプションは、 partitionOverwriteMode セッションレベルの設定よりも優先されます。
書き込まれたデータが予期されるパーティションにのみ触れることを常に検証します。間違ったパーティションの 1 つの行が、意図せずにパーティション全体を上書きする可能性があります。

任意かつ選択的な上書き: replaceWhere​

従来の動作​

動的パーティションの上書き​

動的パーティションの上書き REPLACE USING​

動的パーティションの上書き partitionOverwriteMode (レガシ)​

任意かつ選択的な上書き: `replaceWhere`

従来の動作

動的パーティションの上書き

動的パーティションの上書き `REPLACE USING`

動的パーティションの上書き `partitionOverwriteMode` (レガシ)