Este artigo fornece uma referência para a especificação de configuração do DLT JSON e as propriedades da tabela em Databricks. Para obter mais detalhes sobre o uso dessas várias propriedades e configurações, consulte os artigos a seguir:
Campos |
---|
id Tipo: string Um identificador globalmente exclusivo para esse pipeline. O identificador é atribuído pelo sistema e não pode ser alterado.
|
name Tipo: string Um nome fácil de usar para esse pipeline. O nome pode ser usado para identificar o pipeline Job na interface do usuário.
|
configuration Tipo: object Uma lista opcional de configurações a serem adicionadas à configuração Spark do clustering que executará o pipeline. Essas configurações são lidas pelo tempo de execução do DLT e estão disponíveis para consultas de pipeline por meio da configuração do Spark. Os elementos devem ser formatados como pares key:value .
|
libraries Tipo: array of objects Uma matriz de Notebook que contém o código pipeline e os artefatos necessários.
|
clusters Tipo: array of objects Uma matriz de especificações para o clustering para executar o pipeline. Se isso não for especificado, o pipeline selecionará automaticamente uma configuração de clustering default para o pipeline.
|
development Tipo: boolean Um sinalizador que indica se o senhor deve executar o pipeline em development ou no modo production . O valor de default é true
|
notifications Tipo: array of objects Uma matriz opcional de especificações para as notificações do site email quando uma atualização do site pipeline for concluída, falhar com um erro recuperável, falhar com um erro não recuperável ou um fluxo falhar.
|
continuous Tipo: boolean Um sinalizador que indica se o site pipeline deve ser executado continuamente. O valor de default é false .
|
catalog Tipo: string O nome do catálogo default para o pipeline, onde todos os conjuntos de dados e metadados do pipeline são publicados. A definição desse valor ativa o Unity Catalog para o pipeline. Se não for definido, o site pipeline publica no site legado Hive metastore usando o local especificado em storage . No modo de publicação herdado, especifica o catálogo que contém o esquema de destino em que todos os conjuntos de dados do site pipeline atual são publicados. Consulte esquema LIVE (legado).
|
schema Tipo: string O nome do esquema default para o pipeline, onde todos os conjuntos de dados e metadados do pipeline são publicados pelo default. Consulte Definir o catálogo e o esquema de destino.
|
target (legado) Tipo: string O nome do esquema de destino em que todos os conjuntos de dados definidos no site pipeline atual são publicados. Definir target em vez de schema configura o pipeline para usar o modo de publicação herdado. Consulte esquema LIVE (legado).
|
storage (legado) Tipo: string Um local no DBFS ou no armazenamento em nuvem onde são armazenados os dados de saída e os metadados necessários para a execução do pipeline. Tabelas e metadados são armazenados em subdiretórios desse local. Quando a configuração storage não for especificada, o sistema acessará default para um local em dbfs:/pipelines/ . A configuração storage não pode ser alterada após a criação de um pipeline.
|
channel Tipo: string A versão do tempo de execução do DLT a ser usada. Os valores suportados são: - preview para testar seu pipeline com as próximas alterações na versão do tempo de execução. - current para usar a versão de tempo de execução atual. O campo channel é opcional. O valor de default é current . A Databricks recomenda usar a versão atual do tempo de execução para cargas de trabalho de produção.
|
edition Tipo string A edição do produto DLT para execução do pipeline. Essa configuração permite que o senhor escolha a melhor edição do produto com base nos requisitos do seu pipeline: - CORE para cargas de trabalho de execução, transmissão e ingestão. - PRO para cargas de trabalho de execução, transmissão, ingestão e captura de dados de alterações (CDC) (CDC). - ADVANCED para cargas de trabalho de execução transmissão ingest, CDC e cargas de trabalho que exigem expectativas de DLT para impor restrições de qualidade de dados. O campo edition é opcional. O valor de default é ADVANCED .
|
photon Tipo: boolean Um sinalizador que indica se o senhor deve usar o What is Photon? para executar o pipeline. O Photon é o mecanismo Spark de alto desempenho da Databricks. O pipeline habilitado para fóton é cobrado a uma taxa diferente do pipeline não habilitado para fóton. O campo photon é opcional. O valor de default é false .
|
pipelines.maxFlowRetryAttempts Tipo: int Se ocorrer uma falha tentável durante uma atualização do pipeline, esse é o número máximo de vezes para tentar novamente um fluxo antes de falhar na atualização do pipeline padrão: Duas tentativas de repetição. Quando ocorre uma falha repetível, o tempo de execução da DLT tenta executar o fluxo três vezes, incluindo a tentativa original.
|
pipelines.numUpdateRetryAttempts Tipo: int Se ocorrer uma falha que pode ser repetida durante uma atualização, esse é o número máximo de vezes para tentar novamente a atualização antes de falhar permanentemente na atualização. A nova tentativa é executada como uma atualização completa. Esse parâmetro se aplica somente ao pipeline em execução no modo de produção. Não haverá tentativas de novas tentativas se o site pipeline for executado no modo de desenvolvimento ou se o senhor executar uma atualização Validate . padrão: - Cinco para o pipeline acionado. - Ilimitado para pipeline contínuo.
|
Como a DLT gerencia ciclos de vida de clustering, muitas configurações de clustering são definidas pela DLT e não podem ser configuradas manualmente pelos usuários, seja em uma configuração pipeline ou em uma política de cluster usada por um pipeline. A tabela a seguir lista essas configurações e por que elas não podem ser definidas manualmente.
Campos |
---|
cluster_name O DLT define os nomes do clustering usado para executar as atualizações do pipeline. Esses nomes não podem ser substituídos.
|
data_security_mode access_mode Esses valores são definidos automaticamente pelo sistema.
|
spark_version Execução de clustering DLT em uma versão personalizada do site Databricks Runtime que é continuamente atualizada para incluir o recurso mais recente. A versão do Spark é fornecida com a versão do Databricks Runtime e não pode ser substituída.
|
autotermination_minutes Como a DLT gerencia a lógica de terminação automática e reutilização de clusters, o tempo de terminação automática de clusters não pode ser substituído.
|
runtime_engine Embora o senhor possa controlar esse campo ativando o Photon para o seu pipeline, não é possível definir esse valor diretamente.
|
effective_spark_version Esse valor é definido automaticamente pelo sistema.
|
cluster_source Esse campo é definido pelo sistema e é somente para leitura.
|
docker_image Como o DLT gerencia o ciclo de vida do clustering, o senhor não pode usar um contêiner personalizado com o clustering pipeline.
|
workload_type Esse valor é definido pelo sistema e não pode ser substituído.
|