Referência de propriedades do Delta Live Tables

Este artigo fornece uma referência para a especificação de configuração JSON do Delta Live Tables e propriedades da tabela no Databricks. Para obter mais detalhes sobre como usar essas várias propriedades e configurações, consulte os seguintes artigos:

Configurações de pipeline do Delta Live Tables

Campos

id

Tipo: string

Um identificador globalmente exclusivo para este pipeline. O identificador é atribuído pelo sistema e não pode ser alterado.

name

Tipo: string

Um nome amigável para este pipeline. O nome pode ser usado para identificar Job do pipeline na interface do usuário.

storage

Tipo: string

Um local no DBFS ou armazenamento cloud onde os dados de saída e os metadados necessários para a execução do pipeline são armazenados. Tabelas e metadados são armazenados em subdiretórios deste local.

Quando a configuração storage não for especificada, o sistema assumirá default um local em dbfs:/pipelines/.

A configuração storage não pode ser alterada após a criação de um pipeline.

configuration

Tipo: object

Uma lista opcional de configurações para adicionar à configuração do Spark dos clusters que executarão o pipeline. Essas configurações são lidas pelo Delta Live Tables Runtime e disponíveis para query de pipeline por meio da configuração do Spark.

Os elementos devem ser formatados como pares key:value .

libraries

Tipo: array of objects

Uma matriz de Notebook contendo o código do pipeline e os artefatos necessários.

clusters

Tipo: array of objects

Uma matriz de especificações para os clusters para execução do pipeline.

Se isso não for especificado, os pipelines selecionarão automaticamente uma configuração clusters default para o pipeline.

development

Tipo: boolean

Um sinalizador que indica se o pipeline deve ser executado no modo development ou production .

O valor default é true

notifications

Tipo: array of objects

Uma matriz opcional de especificações para notificações por email quando uma atualização de pipeline é concluída, falha com um erro que pode ser repetido, falha com um erro que não pode ser repetido ou um fluxo falha.

continuous

Tipo: boolean

Um sinalizador que indica se o pipeline deve ser executado continuamente.

O valor default é false.

target

Tipo: string

O nome de um banco de dados para dados de saída de pipeline persistentes. Definir a configuração target permite view e query os dados de saída do pipeline da interface do usuário do Databricks.

channel

Tipo: string

A versão do Delta Live Tables Runtime a ser usada. Os valores suportados são:

  • preview para testar seu pipeline com as próximas alterações na versão Runtime .

  • current para usar a versão atual Runtime .

O campo channel é opcional. O valor default é current. Databricks recomenda usar a versão atual Runtime para cargas de trabalho de produção.

edition

Tipo string

A edição do produto Delta Live Tables para execução do pipeline. Essa configuração permite escolher a melhor edição do produto com base nos requisitos do seu pipeline:

  • CORE para execução de transmissão de ingestão de cargas de trabalho.

  • PRO para execução transmissão ingestão e captura de dados de alterações (CDC) (CDC) workloads.

  • ADVANCED cargas de trabalho de ingestão de transmissão de execução, cargas de trabalho de CDC e cargas de trabalho que exigem expectativas Delta Live Tables para impor restrições de qualidade de dados.

O campo edition é opcional. O valor default é ADVANCED.

photon

Tipo: boolean

Um sinalizador indicando se deve ser usado What is Photon? para executar o pipeline. Photon é o mecanismo Spark de alto desempenho do Databricks. pipeline habilitados para Photon são cobrados a uma taxa diferente dos pipeline não-Photon.

O campo photon é opcional. O valor default é false.

pipelines.maxFlowRetryAttempts

Tipo: int

O número máximo de tentativas para repetir um fluxo antes de falhar em uma atualização de pipeline quando ocorre uma falha repetível.

O valor default é dois. Por default, quando ocorre uma falha com nova tentativa, o Delta Live Tables Runtime tenta executar o fluxo três vezes, incluindo a tentativa original.

pipelines.numUpdateRetryAttempts

Tipo: int

O número máximo de tentativas para repetir uma atualização antes de falhar na atualização quando ocorre uma falha repetível. A nova tentativa é executada como uma atualização completa.

O default é cinco. Este parâmetro aplica-se apenas à execução de atualizações acionadas no modo de produção. Não há nova tentativa quando o pipeline é executado no modo de desenvolvimento.

Propriedades da tabela Delta Live Tables

Além das propriedades da tabela suportadas pelo Delta Lake, você pode definir as seguintes propriedades da tabela.

Propriedades da tabela

pipelines.autoOptimize.managed

default: true

Ativa ou desativa a otimização agendada automaticamente desta tabela.

pipelines.autoOptimize.zOrderCols

default: nenhum

Uma strings opcional contendo uma lista separada por vírgulas de nomes de coluna para esta tabela em Z-order. Por exemplo, pipelines.autoOptimize.zOrderCols = "year,month"

pipelines.reset.allowed

default: true

Controla se uma refresh completa é permitida para esta tabela.

Propriedades da tabela CDC

observação:: Essas propriedades para controlar o comportamento de gerenciamento de marca para exclusão foram descontinuadas e substituídas pelas configurações do pipeline. Quaisquer pipelines novos ou existentes devem usar as novas configurações de pipeline. Consulte Controlar o gerenciamento de marca para exclusão para querySCD tipo 1.

As propriedades da tabela a seguir são adicionadas para controlar o comportamento do gerenciamento de tombstone para eventos DELETE ao usar o CDC:

Propriedades da tabela

pipelines.cdc.tombstoneGCThresholdInSeconds

default: 5 minutos

Defina esse valor para corresponder ao intervalo esperado mais alto entre dados fora de ordem.

pipelines.cdc.tombstoneGCFrequencyInSeconds

default: 60 segundos

Controla com que frequência as lápides são verificadas para limpeza.

Consulte Captura simplificada de dados de alterações (CDC) com a API APPLY CHANGES em Delta Live Tables.

Intervalo de acionamento de pipelines

Você pode especificar um intervalo de gatilho de pipeline para todo o pipeline Delta Live Tables ou como parte de uma declaração de dataset . Consulte Intervalo de acionamento de pipelines.

pipelines.trigger.interval

O default é baseado no tipo de fluxo:

  • Cinco segundos para query de transmissão.

  • Um minuto para query completa quando todos os dados de entrada são de fontes Delta.

  • Dez minutos para query completa quando alguma fonte de dados pode não ser Delta.

O valor é um número mais a unidade de tempo. A seguir estão as unidades de tempo válidas:

  • second, seconds

  • minute, minutes

  • hour, hours

  • day, days

Você pode usar a unidade singular ou plural ao definir o valor, por exemplo:

  • {"pipelines.trigger.interval" : "1 hour"}

  • {"pipelines.trigger.interval" : "10 seconds"}

  • {"pipelines.trigger.interval" : "30 second"}

  • {"pipelines.trigger.interval" : "1 minute"}

  • {"pipelines.trigger.interval" : "10 minutes"}

  • {"pipelines.trigger.interval" : "10 minute"}

atributos clusters que não são configuráveis pelo usuário

Como o Delta Live Tables gerencia os ciclos de vida dos clusters, muitas configurações de clusters são definidas pelo Delta Live Tables e não podem ser configuradas manualmente pelos usuários, seja em uma configuração de pipeline ou em uma política de cluster usada por um pipeline. A tabela a seguir lista essas configurações e por que elas não podem ser definidas manualmente.

Campos

cluster_name

Delta Live Tables define os nomes dos clusters usados para atualizações de pipeline de execução. Esses nomes não podem ser substituídos.

data_security_mode access_mode

Esses valores são definidos automaticamente pelo sistema.

spark_version

Execução de clusters Delta Live Tables em uma versão personalizada do Databricks Runtime que é continuamente atualizada para incluir os recursos mais recentes. A versão do Spark é fornecida com a versão do Databricks Runtime e não pode ser substituída.

autotermination_minutes

Como o Delta Live Tables gerencia a lógica de reutilização e encerramento automático clusters , o tempo de encerramento automático clusters não pode ser substituído.

runtime_engine

Embora você possa controlar esse campo habilitando Photon para seu pipeline, não é possível definir esse valor diretamente.

effective_spark_version

Este valor é definido automaticamente pelo sistema.

cluster_source

Este campo é definido pelo sistema e é somente leitura.

docker_image

Como o Delta Live Tables gerencia o ciclo de vida do cluster, você não pode usar um contêiner personalizado com clusters de pipeline.

workload_type

Este valor é definido pelo sistema e não pode ser substituído.