Upsert em uma tabela Delta Lake usando merge

Você pode atualizar dados de uma tabela de origem, view ou DataFrame em uma tabela Delta Lake de destino usando a operação SQL MERGE. O Delta Lake oferece suporte a inserções, atualizações e exclusões em MERGEe oferece suporte à sintaxe estendida além dos padrões SQL para facilitar casos de uso avançados.

Suponha que você tenha uma tabela de origem chamada people10mupdates ou um caminho de origem em /tmp/delta/people-10m-updates que contenha novos dados para uma tabela de destino chamada people10m ou um caminho de destino em /tmp/delta/people-10m. Alguns desses novos registros podem já estar presentes nos dados de destino. Para merge os novos dados, o senhor deseja atualizar as linhas em que o id da pessoa já está presente e inserir as novas linhas em que não há correspondência com o id. O senhor pode executar a seguinte consulta:

SQL
Python
Scala

SQL
MERGE INTO people10m
USING people10mupdates
ON people10m.id = people10mupdates.id
WHEN MATCHED THEN
  UPDATE SET
    id = people10mupdates.id,
    firstName = people10mupdates.firstName,
    middleName = people10mupdates.middleName,
    lastName = people10mupdates.lastName,
    gender = people10mupdates.gender,
    birthDate = people10mupdates.birthDate,
    ssn = people10mupdates.ssn,
    salary = people10mupdates.salary
WHEN NOT MATCHED
  THEN INSERT (
    id,
    firstName,
    middleName,
    lastName,
    gender,
    birthDate,
    ssn,
    salary
  )
  VALUES (
    people10mupdates.id,
    people10mupdates.firstName,
    people10mupdates.middleName,
    people10mupdates.lastName,
    people10mupdates.gender,
    people10mupdates.birthDate,
    people10mupdates.ssn,
    people10mupdates.salary
  )

Python
from delta.tables import *

deltaTablePeople = DeltaTable.forName(spark, "people10m")
deltaTablePeopleUpdates = DeltaTable.forName(spark, "people10mupdates")

dfUpdates = deltaTablePeopleUpdates.toDF()

deltaTablePeople.alias('people') \
  .merge(
    dfUpdates.alias('updates'),
    'people.id = updates.id'
  ) \
  .whenMatchedUpdate(set =
    {
      "id": "updates.id",
      "firstName": "updates.firstName",
      "middleName": "updates.middleName",
      "lastName": "updates.lastName",
      "gender": "updates.gender",
      "birthDate": "updates.birthDate",
      "ssn": "updates.ssn",
      "salary": "updates.salary"
    }
  ) \
  .whenNotMatchedInsert(values =
    {
      "id": "updates.id",
      "firstName": "updates.firstName",
      "middleName": "updates.middleName",
      "lastName": "updates.lastName",
      "gender": "updates.gender",
      "birthDate": "updates.birthDate",
      "ssn": "updates.ssn",
      "salary": "updates.salary"
    }
  ) \
  .execute()

Scala
import io.delta.tables._
import org.apache.spark.sql.functions._

val deltaTablePeople = DeltaTable.forName(spark, "people10m")
val deltaTablePeopleUpdates = DeltaTable.forName(spark, "people10mupdates")
val dfUpdates = deltaTablePeopleUpdates.toDF()

deltaTablePeople
  .as("people")
  .merge(
    dfUpdates.as("updates"),
    "people.id = updates.id")
  .whenMatched
  .updateExpr(
    Map(
      "id" -> "updates.id",
      "firstName" -> "updates.firstName",
      "middleName" -> "updates.middleName",
      "lastName" -> "updates.lastName",
      "gender" -> "updates.gender",
      "birthDate" -> "updates.birthDate",
      "ssn" -> "updates.ssn",
      "salary" -> "updates.salary"
    ))
  .whenNotMatched
  .insertExpr(
    Map(
      "id" -> "updates.id",
      "firstName" -> "updates.firstName",
      "middleName" -> "updates.middleName",
      "lastName" -> "updates.lastName",
      "gender" -> "updates.gender",
      "birthDate" -> "updates.birthDate",
      "ssn" -> "updates.ssn",
      "salary" -> "updates.salary"
    ))
  .execute()

importante

Somente uma única linha da tabela de origem pode corresponder a uma determinada linha na tabela de destino. Em Databricks Runtime 16.0 e acima, MERGE avalia as condições especificadas nas cláusulas WHEN MATCHED e ON para determinar correspondências duplicadas. No Databricks Runtime 15.4 LTS e abaixo, as operações do MERGE consideram apenas as condições especificadas na cláusula ON.

Consulte a documentação da API do Delta Lake para obter detalhes sobre a sintaxe em Scala e Python. Para detalhes sobre a sintaxe SQL, consulte MERGE INTO

Modifique todas as linhas não correspondentes usando merge

Em Databricks SQL e Databricks Runtime 12.2 LTS e acima, é possível usar a cláusula WHEN NOT MATCHED BY SOURCE para UPDATE ou DELETE registros na tabela de destino que não tenham registros correspondentes na tabela de origem. A Databricks recomenda adicionar uma cláusula condicional opcional para evitar a reescrita completa da tabela de destino.

O exemplo de código a seguir mostra a sintaxe básica de usar isso para exclusões, sobrescrevendo a tabela de destino com o conteúdo da tabela de origem e excluindo registros não correspondentes na tabela de destino. Para um padrão mais expansível para tabelas em que as atualizações e exclusões de origem são limitadas por tempo, consulte Sincronizar incrementalmente a tabela Delta Lake com a origem.

Python
Scala
SQL

Python
(targetDF
  .merge(sourceDF, "source.key = target.key")
  .whenMatchedUpdateAll()
  .whenNotMatchedInsertAll()
  .whenNotMatchedBySourceDelete()
  .execute()
)

Scala
targetDF
  .merge(sourceDF, "source.key = target.key")
  .whenMatched()
  .updateAll()
  .whenNotMatched()
  .insertAll()
  .whenNotMatchedBySource()
  .delete()
  .execute()

SQL
MERGE INTO target
USING source
ON source.key = target.key
WHEN MATCHED THEN
  UPDATE SET *
WHEN NOT MATCHED THEN
  INSERT *
WHEN NOT MATCHED BY SOURCE THEN
  DELETE

O exemplo seguinte adiciona condições para a cláusula WHEN NOT MATCHED BY SOURCE e especifica valores para atualizar em linhas de destino sem correspondência.

Python
Scala
SQL

Python
(targetDF
  .merge(sourceDF, "source.key = target.key")
  .whenMatchedUpdate(
    set = {"target.lastSeen": "source.timestamp"}
  )
  .whenNotMatchedInsert(
    values = {
      "target.key": "source.key",
      "target.lastSeen": "source.timestamp",
      "target.status": "'active'"
    }
  )
  .whenNotMatchedBySourceUpdate(
    condition="target.lastSeen >= (current_date() - INTERVAL '5' DAY)",
    set = {"target.status": "'inactive'"}
  )
  .execute()
)

Scala
targetDF
  .merge(sourceDF, "source.key = target.key")
  .whenMatched()
  .updateExpr(Map("target.lastSeen" -> "source.timestamp"))
  .whenNotMatched()
  .insertExpr(Map(
    "target.key" -> "source.key",
    "target.lastSeen" -> "source.timestamp",
    "target.status" -> "'active'",
    )
  )
  .whenNotMatchedBySource("target.lastSeen >= (current_date() - INTERVAL '5' DAY)")
  .updateExpr(Map("target.status" -> "'inactive'"))
  .execute()

SQL
MERGE INTO target
USING source
ON source.key = target.key
WHEN MATCHED THEN
  UPDATE SET target.lastSeen = source.timestamp
WHEN NOT MATCHED THEN
  INSERT (key, lastSeen, status) VALUES (source.key,  source.timestamp, 'active')
WHEN NOT MATCHED BY SOURCE AND target.lastSeen >= (current_date() - INTERVAL '5' DAY) THEN
  UPDATE SET target.status = 'inactive'

merge operações semantics

A seguir está uma descrição detalhada da semântica da operação merge programática.

Pode haver qualquer número de cláusulas whenMatched e whenNotMatched .
whenMatched as cláusulas são acionadas quando uma linha da fonte coincide com uma linha da tabela de destino com base na condição de correspondência.Estas cláusulas têm a seguinte semântica.
- whenMatched as cláusulas podem ter no máximo uma ação update e uma delete. A ação update em merge atualiza apenas as colunas especificadas (semelhante às operações de update ) da linha de destino correspondente. A ação delete exclui a linha correspondente.
- Cada cláusula whenMatched pode ter uma condição opcional. Se essa condição de cláusula existir, a ação update ou delete será executada para qualquer par de linhas origem-destino correspondente somente quando a condição de cláusula for verdadeira.
- Se houver várias cláusulas whenMatched, elas serão avaliadas na ordem em que foram especificadas. Todas as whenMatched cláusulas, exceto a última, devem ter condições.
- Se nenhuma das condições whenMatched for avaliada como verdadeira para um par de linhas de origem e destino que corresponda à condição de merge, a linha de destino será deixada inalterada.
- Para atualizar todas as colunas da tabela Delta Lake de destino com as colunas correspondentes do dataset de origem, utilize whenMatched(...).updateAll(). Isso é equivalente a:
  Scala
```
whenMatched(...).updateExpr(Map("col1" -> "source.col1", "col2" -> "source.col2", ...))
```
  para todas as colunas da tabela Delta Lake de destino. Portanto, essa ação pressupõe que a tabela de origem tenha as mesmas colunas que as da tabela de destino, caso contrário, a consulta mostrará um erro de análise.

nota

Esse comportamento muda quando a evolução automática do esquema é ativada. Para obter detalhes, consulte a evolução automática do esquema.

whenNotMatched as cláusulas são executadas quando uma linha de origem não corresponde a nenhuma linha de destino com base na condição de correspondência. Estas cláusulas têm a seguinte semântica.
- whenNotMatched as cláusulas podem ter apenas a ação insert . A nova linha é gerada com base na coluna especificada e expressões correspondentes. Você não precisa especificar todas as colunas na tabela de destino. Para colunas de destino não especificadas, NULL é inserido.
- Cada cláusula whenNotMatched pode ter uma condição opcional. Se a condição da cláusula estiver presente, uma linha de origem será inserida somente se essa condição for verdadeira para essa linha. Caso contrário, a coluna de origem será ignorada.
- Se houver várias cláusulas whenNotMatched, elas serão avaliadas na ordem em que foram especificadas. Todas as whenNotMatched cláusulas, exceto a última, devem ter condições.
- Para inserir todas as colunas da tabela Delta Lake de destino com as colunas correspondentes do dataset de origem, utilize whenNotMatched(...).insertAll(). Isso é equivalente a:
  Scala
```
whenNotMatched(...).insertExpr(Map("col1" -> "source.col1", "col2" -> "source.col2", ...))
```
  para todas as colunas da tabela Delta Lake de destino. Portanto, essa ação pressupõe que a tabela de origem tenha as mesmas colunas que as da tabela de destino, caso contrário, a consulta mostrará um erro de análise.

nota

Esse comportamento muda quando a evolução automática do esquema é ativada. Para obter detalhes, consulte a evolução automática do esquema.

whenNotMatchedBySource as cláusulas são executadas quando uma linha de destino não corresponde a nenhuma linha de origem com base na condição de mesclagem. Estas cláusulas têm a seguinte semântica.
- whenNotMatchedBySource as cláusulas podem especificar ações delete e update .
- Cada cláusula whenNotMatchedBySource pode ter uma condição opcional. Se a condição da cláusula estiver presente, uma linha de destino será modificada somente se essa condição for verdadeira para essa linha. Caso contrário, a linha de destino permanece inalterada.
- Se houver várias cláusulas whenNotMatchedBySource, elas serão avaliadas na ordem em que foram especificadas. Todas as whenNotMatchedBySource cláusulas, exceto a última, devem ter condições.
- Por definição, as cláusulas whenNotMatchedBySource não têm uma linha de origem da qual extrair os valores das colunas e, portanto, as colunas de origem não podem ser referenciadas. Para cada coluna a ser modificada, o senhor pode especificar um literal ou executar uma ação na coluna de destino, como SET target.deleted_count = target.deleted_count + 1.

importante

Uma operação merge pode falhar se múltiplas linhas do dataset de origem corresponderem e a merge tentar atualizar as mesmas linhas da tabela Delta Lake de destino. De acordo com a semântica SQL de merge, essa operação de atualização é ambígua, pois não está claro qual linha de origem deve ser usada para atualizar a linha de destino correspondente. É possível pré-processar a tabela de origem para eliminar a possibilidade de várias correspondências.
Você pode aplicar uma operação SQL MERGE em um SQL VIEW somente se a visualização tiver sido definida como CREATE VIEW viewName AS SELECT * FROM deltaTable.

Eliminação de duplicação de dados ao escrever em tabelas Delta Lake

Um caso de uso comum de ETL é coletar logs em uma tabela do Delta Lake anexando-os a uma tabela. No entanto, muitas vezes as fontes podem gerar registros log duplicados e etapas de duplicação downstream são necessárias para cuidar deles. Com merge, você pode evitar a inserção de registros duplicados.

SQL
Python
Scala
Java

SQL
MERGE INTO logs
USING newDedupedLogs
ON logs.uniqueId = newDedupedLogs.uniqueId
WHEN NOT MATCHED
  THEN INSERT *

Python
deltaTable.alias("logs").merge(
    newDedupedLogs.alias("newDedupedLogs"),
    "logs.uniqueId = newDedupedLogs.uniqueId") \
  .whenNotMatchedInsertAll() \
  .execute()

Scala
deltaTable
  .as("logs")
  .merge(
    newDedupedLogs.as("newDedupedLogs"),
    "logs.uniqueId = newDedupedLogs.uniqueId")
  .whenNotMatched()
  .insertAll()
  .execute()

Java
deltaTable
  .as("logs")
  .merge(
    newDedupedLogs.as("newDedupedLogs"),
    "logs.uniqueId = newDedupedLogs.uniqueId")
  .whenNotMatched()
  .insertAll()
  .execute();

nota

O dataset que contém os novos logs precisa ser duplicação dentro de si mesmo. Pela semântica SQL de mesclagem, ele corresponde e elimina a duplicação dos novos dados com os dados existentes na tabela, mas se houver dados duplicados no novo dataset, eles serão inseridos. Portanto, elimine a duplicação dos novos dados antes de mesclar na tabela.

Se você souber que poderá obter registros duplicados apenas por alguns dias, poderá otimizar ainda mais sua consulta particionando a tabela por data e especificando o intervalo de datas da tabela de destino a ser correspondido.

SQL
Python
Scala
Java

SQL
MERGE INTO logs
USING newDedupedLogs
ON logs.uniqueId = newDedupedLogs.uniqueId AND logs.date > current_date() - INTERVAL 7 DAYS
WHEN NOT MATCHED AND newDedupedLogs.date > current_date() - INTERVAL 7 DAYS
  THEN INSERT *

Python
deltaTable.alias("logs").merge(
    newDedupedLogs.alias("newDedupedLogs"),
    "logs.uniqueId = newDedupedLogs.uniqueId AND logs.date > current_date() - INTERVAL 7 DAYS") \
  .whenNotMatchedInsertAll("newDedupedLogs.date > current_date() - INTERVAL 7 DAYS") \
  .execute()

Scala
deltaTable.as("logs").merge(
    newDedupedLogs.as("newDedupedLogs"),
    "logs.uniqueId = newDedupedLogs.uniqueId AND logs.date > current_date() - INTERVAL 7 DAYS")
  .whenNotMatched("newDedupedLogs.date > current_date() - INTERVAL 7 DAYS")
  .insertAll()
  .execute()

Java
deltaTable.as("logs").merge(
    newDedupedLogs.as("newDedupedLogs"),
    "logs.uniqueId = newDedupedLogs.uniqueId AND logs.date > current_date() - INTERVAL 7 DAYS")
  .whenNotMatched("newDedupedLogs.date > current_date() - INTERVAL 7 DAYS")
  .insertAll()
  .execute();

Isso é mais eficiente do que o comando anterior, pois procura duplicatas apenas nos últimos 7 dias de logs, não na tabela inteira. Além disso, você pode usar essa mesclagem somente inserção com a transmissão estruturada para executar a eliminação contínua de duplicação dos logs.

Em uma consulta de transmissão, você pode usar a operação de merge no foreachBatch para gravar continuamente quaisquer dados de transmissão em uma tabela Delta Lake com eliminação de duplicação. Consulte o seguinte exemplo de transmissão para obter mais informações sobre foreachBatch.
Em outra consulta de transmissão, você pode ler continuamente dados deduplicados desta tabela Delta Lake. Isso é possível porque um merge somente de inserção apenas acrescenta novos dados à tabela Delta Lake.

Dados que mudam lentamente (SCD) e captura de dados de alterações (CDC) (CDC) com Delta Lake

LakeFlow Pipelines têm suporte nativo para acompanhamento e aplicação de SCD Tipo 1 e Tipo 2. Use AUTO CDC ... INTO com LakeFlow Pipelines para garantir que os registros fora de ordem sejam tratados corretamente ao processar feeds CDC. Consulte As APIs AUTO CDC: Simplifique a captura de dados de alterações com pipelines.

Sincronizar incrementalmente a tabela Delta Lake com a origem

Em Databricks SQL e Databricks Runtime 12.2 LTS e acima, o senhor pode usar WHEN NOT MATCHED BY SOURCE para criar condições arbitrárias para excluir e substituir atomicamente uma parte de uma tabela. Isso pode ser especialmente útil quando você tem uma tabela de origem na qual os registros podem ser alterados ou excluídos por vários dias após a entrada inicial dos dados, mas eventualmente se estabelecem em um estado final.

A consulta a seguir mostra o uso desse padrão para selecionar 5 dias de registros da origem, atualizar os registros correspondentes no destino, inserir novos registros da origem no destino e excluir todos os registros não correspondentes dos últimos 5 dias no destino.

SQL
MERGE INTO target AS t
USING (SELECT * FROM source WHERE created_at >= (current_date() - INTERVAL '5' DAY)) AS s
ON t.key = s.key
WHEN MATCHED THEN UPDATE SET *
WHEN NOT MATCHED THEN INSERT *
WHEN NOT MATCHED BY SOURCE AND created_at >= (current_date() - INTERVAL '5' DAY) THEN DELETE

Ao fornecer o mesmo filtro booleano nas tabelas de origem e destino, você pode propagar dinamicamente as alterações de sua origem para as tabelas de destino, incluindo exclusões.

nota

Embora esse padrão possa ser usado sem nenhuma cláusula condicional, isso levaria à reescrita completa da tabela de destino, o que pode ser caro.

Modifique todas as linhas não correspondentes usando merge​

merge operações semantics​

Eliminação de duplicação de dados ao escrever em tabelas Delta Lake​

Dados que mudam lentamente (SCD) e captura de dados de alterações (CDC) (CDC) com Delta Lake​

Sincronizar incrementalmente a tabela Delta Lake com a origem​

Modifique todas as linhas não correspondentes usando merge

merge operações semantics

Eliminação de duplicação de dados ao escrever em tabelas Delta Lake

Dados que mudam lentamente (SCD) e captura de dados de alterações (CDC) (CDC) com Delta Lake

Sincronizar incrementalmente a tabela Delta Lake com a origem