Pular para o conteúdo principal

Referência de propriedades DLT

Este artigo fornece uma referência para a especificação de configuração do DLT JSON e as propriedades da tabela em Databricks. Para obter mais detalhes sobre o uso dessas várias propriedades e configurações, consulte os artigos a seguir:

Configurações de pipeline de DLT

Campos

id Tipo: string Um identificador globalmente exclusivo para esse pipeline. O identificador é atribuído pelo sistema e não pode ser alterado.

name Tipo: string Um nome fácil de usar para esse pipeline. O nome pode ser usado para identificar o pipeline Job na interface do usuário.

configuration Tipo: object Uma lista opcional de configurações a serem adicionadas à configuração Spark do clustering que executará o pipeline. Essas configurações são lidas pelo tempo de execução do DLT e estão disponíveis para consultas de pipeline por meio da configuração do Spark. Os elementos devem ser formatados como pares key:value.

libraries Tipo: array of objects Uma matriz de Notebook que contém o código pipeline e os artefatos necessários.

clusters Tipo: array of objects Uma matriz de especificações para o clustering para executar o pipeline. Se isso não for especificado, o pipeline selecionará automaticamente uma configuração de clustering default para o pipeline.

development Tipo: boolean Um sinalizador que indica se o senhor deve executar o pipeline em development ou no modo production. O valor de default é true

notifications Tipo: array of objects Uma matriz opcional de especificações para as notificações do site email quando uma atualização do site pipeline for concluída, falhar com um erro recuperável, falhar com um erro não recuperável ou um fluxo falhar.

continuous Tipo: boolean Um sinalizador que indica se o site pipeline deve ser executado continuamente. O valor de default é false.

catalog Tipo: string O nome do catálogo default para o pipeline, onde todos os conjuntos de dados e metadados do pipeline são publicados. A definição desse valor ativa o Unity Catalog para o pipeline. Se não for definido, o site pipeline publica no site legado Hive metastore usando o local especificado em storage. No modo de publicação herdado, especifica o catálogo que contém o esquema de destino em que todos os conjuntos de dados do site pipeline atual são publicados. Consulte esquema LIVE (legado).

schema Tipo: string O nome do esquema default para o pipeline, onde todos os conjuntos de dados e metadados do pipeline são publicados pelo default. Consulte Definir o catálogo e o esquema de destino.

target (legado) Tipo: string O nome do esquema de destino em que todos os conjuntos de dados definidos no site pipeline atual são publicados. Definir target em vez de schema configura o pipeline para usar o modo de publicação herdado. Consulte esquema LIVE (legado).

storage (legado) Tipo: string Um local no DBFS ou no armazenamento em nuvem onde são armazenados os dados de saída e os metadados necessários para a execução do pipeline. Tabelas e metadados são armazenados em subdiretórios desse local. Quando a configuração storage não for especificada, o sistema acessará default para um local em dbfs:/pipelines/. A configuração storage não pode ser alterada após a criação de um pipeline.

channel Tipo: string A versão do tempo de execução do DLT a ser usada. Os valores suportados são: - preview para testar seu pipeline com as próximas alterações na versão do tempo de execução. - current para usar a versão de tempo de execução atual. O campo channel é opcional. O valor de default é current. A Databricks recomenda usar a versão atual do tempo de execução para cargas de trabalho de produção.

edition Tipo string A edição do produto DLT para execução do pipeline. Essa configuração permite que o senhor escolha a melhor edição do produto com base nos requisitos do seu pipeline: - CORE para cargas de trabalho de execução, transmissão e ingestão. - PRO para cargas de trabalho de execução, transmissão, ingestão e captura de dados de alterações (CDC) (CDC). - ADVANCED para cargas de trabalho de execução transmissão ingest, CDC e cargas de trabalho que exigem expectativas de DLT para impor restrições de qualidade de dados. O campo edition é opcional. O valor de default é ADVANCED.

photon Tipo: boolean Um sinalizador que indica se o senhor deve usar o What is Photon? para executar o pipeline. O Photon é o mecanismo Spark de alto desempenho da Databricks. O pipeline habilitado para fóton é cobrado a uma taxa diferente do pipeline não habilitado para fóton. O campo photon é opcional. O valor de default é false.

pipelines.maxFlowRetryAttempts Tipo: int Se ocorrer uma falha tentável durante uma atualização do pipeline, esse é o número máximo de vezes para tentar novamente um fluxo antes de falhar na atualização do pipeline padrão: Duas tentativas de repetição. Quando ocorre uma falha repetível, o tempo de execução da DLT tenta executar o fluxo três vezes, incluindo a tentativa original.

pipelines.numUpdateRetryAttempts Tipo: int Se ocorrer uma falha que pode ser repetida durante uma atualização, esse é o número máximo de vezes para tentar novamente a atualização antes de falhar permanentemente na atualização. A nova tentativa é executada como uma atualização completa. Esse parâmetro se aplica somente ao pipeline em execução no modo de produção. Não haverá tentativas de novas tentativas se o site pipeline for executado no modo de desenvolvimento ou se o senhor executar uma atualização Validate. padrão: - Cinco para o pipeline acionado. - Ilimitado para pipeline contínuo.

Propriedades da tabela DLT

Além das propriedades de tabela suportadas pelo Delta Lake, o senhor pode definir as seguintes propriedades de tabela.

Propriedades da tabela

pipelines.autoOptimize.managed padrão: true Ativa ou desativa a otimização programada automaticamente dessa tabela.

pipelines.autoOptimize.zOrderCols padrão: Nenhum Uma strings opcional contendo uma lista separada por vírgulas de nomes de coluna para esta tabela em Z-order. Por exemplo, pipelines.autoOptimize.zOrderCols = "year,month"

pipelines.reset.allowed padrão: true Controla se um refresh completo é permitido para essa tabela.

intervalo de acionamento do pipeline

O senhor pode especificar um intervalo de acionamento pipeline para todo o DLT pipeline ou como parte de uma declaração dataset. Consulte Definir intervalo de acionamento para pipeline contínuo.

pipelines.trigger.interval

O site default é baseado no tipo de fluxo: - Cinco segundos para consultas de transmissão. - Um minuto para consultas completas quando todos os dados de entrada são de fontes Delta. - Dez minutos para consultas completas quando alguma fonte de dados pode ser não-Delta. O valor é um número mais a unidade de tempo. A seguir estão as unidades de tempo válidas: - second, seconds - minute, minutes - hour, hours - day, days Você pode usar a unidade singular ou plural ao definir o valor, por exemplo: - {"pipelines.trigger.interval" : "1 hour"} - {"pipelines.trigger.interval" : "10 seconds"} - {"pipelines.trigger.interval" : "30 second"} - {"pipelines.trigger.interval" : "1 minute"} - {"pipelines.trigger.interval" : "10 minutes"} - {"pipelines.trigger.interval" : "10 minute"}

atributos de agrupamento que não podem ser definidos pelo usuário

Como a DLT gerencia ciclos de vida de clustering, muitas configurações de clustering são definidas pela DLT e não podem ser configuradas manualmente pelos usuários, seja em uma configuração pipeline ou em uma política de cluster usada por um pipeline. A tabela a seguir lista essas configurações e por que elas não podem ser definidas manualmente.

Campos

cluster_name O DLT define os nomes do clustering usado para executar as atualizações do pipeline. Esses nomes não podem ser substituídos.

data_security_mode access_mode Esses valores são definidos automaticamente pelo sistema.

spark_version Execução de clustering DLT em uma versão personalizada do site Databricks Runtime que é continuamente atualizada para incluir o recurso mais recente. A versão do Spark é fornecida com a versão do Databricks Runtime e não pode ser substituída.

autotermination_minutes Como a DLT gerencia a lógica de terminação automática e reutilização de clusters, o tempo de terminação automática de clusters não pode ser substituído.

runtime_engine Embora o senhor possa controlar esse campo ativando o Photon para o seu pipeline, não é possível definir esse valor diretamente.

effective_spark_version Esse valor é definido automaticamente pelo sistema.

cluster_source Esse campo é definido pelo sistema e é somente para leitura.

docker_image Como o DLT gerencia o ciclo de vida do clustering, o senhor não pode usar um contêiner personalizado com o clustering pipeline.

workload_type Esse valor é definido pelo sistema e não pode ser substituído.