Referência de propriedades de pipeline declarativasLakeFlow
Este artigo fornece uma referência para a especificação de configuração JSON do pipeline declarativo LakeFlow e propriedades de tabela no Databricks. Para obter mais detalhes sobre o uso dessas várias propriedades e configurações, consulte os seguintes artigos:
Configurações de pipeline declarativasLakeFlow
- 
idTipo: stringUm identificador globalmente exclusivo para este pipeline. O identificador é atribuído pelo sistema e não pode ser alterado. 
- 
nameTipo: stringUm nome amigável para este pipeline. O nome pode ser usado para identificar o trabalho pipeline na interface do usuário. 
- 
configurationTipo: objectUma lista opcional de configurações para adicionar à configuração do Spark do cluster que executará o pipeline. Essas configurações são lidas pelo tempo de execução do pipeline declarativo LakeFlow e estão disponíveis para consultas pipeline por meio da configuração Spark . Os elementos devem ser formatados como pares key:value.
- 
librariesTipo: array of objectsUma matriz de arquivos de código contendo o código do pipeline e os artefatos necessários. 
- 
clustersTipo: array of objectsUma série de especificações para os clusters executarem o pipeline. Se isso não for especificado, o pipeline selecionará automaticamente uma configuração cluster default para o pipeline. 
- 
developmentTipo: booleanUm sinalizador que indica se o pipeline deve ser executado em Modo developmentouproduction.O valor default é true
- 
notificationsTipo: array of objectsUma matriz opcional de especificações para notificações email quando uma atualização pipeline é concluída, falha com um erro que pode ser repetido, falha com um erro que não pode ser repetido ou um fluxo falha. 
- 
continuousTipo: booleanUm sinalizador que indica se o pipeline deve ser executado continuamente. O valor default é false.
- 
catalogTipo: stringO nome do catálogo default para o pipeline, onde todos os conjuntos de dados e metadados do pipeline são publicados. Definir esse valor habilita o Unity Catalog para o pipeline. Se não for definido, o pipeline será publicado no Hive metastore Hive legado usando o local especificado em storage.No modo de publicação legado, especifica o catálogo que contém o esquema de destino onde todos os conjuntos de dados do pipeline atual são publicados. Veja o esquema LIVE (legado). 
- 
schemaTipo: stringO nome do esquema default para o pipeline, onde todos os conjuntos de dados e metadados para o pipeline são publicados por default. Consulte Definir o catálogo de destino e o esquema. 
- 
target(legado)Tipo: stringO nome do esquema de destino onde todos os conjuntos de dados definidos no pipeline atual são publicados. Definir targetem vez deschemaconfigura o pipeline para usar o modo de publicação legado. Veja o esquema LIVE (legado).
- 
storage(legado)Tipo: stringUm local no DBFS ou armazenamento cloud onde os dados de saída e metadados necessários para a execução pipeline são armazenados. Tabelas e metadados são armazenados em subdiretórios deste local. Quando a configuração storagenão for especificada, o sistema usará como default um local emdbfs:/pipelines/.A configuração storagenão pode ser alterada após a criação de um pipeline.
- 
channelTipo: stringA versão do tempo de execução do pipeline declarativo LakeFlow a ser usada. Os valores suportados são: - previewpara testar seu pipeline com as próximas alterações na versão do runtime.
- currentpara usar a versão atual do runtime.
 O campo channelé opcional. O valor default écurrent. A Databricks recomenda usar a versão atual do tempo de execução para cargas de trabalho de produção.
- 
editionTipo stringEdição do produto LakeFlow Declarative pipeline para execução do pipeline. Esta configuração permite que você escolha a melhor edição do produto com base nos requisitos do seu pipeline: - COREpara execução transmissão ingerir cargas de trabalho.
- PROpara execução de transmissão de ingest e captura de dados de alterações (CDC) (CDC) cargas de trabalho.
- ADVANCEDpara executar cargas de trabalho de ingestão de transmissão, cargas de trabalho CDC e cargas de trabalho que exigem expectativas de pipeline declarativas LakeFlow para impor restrições de qualidade de dados.
 O campo editioné opcional. O valor default éADVANCED.
- 
photonTipo: booleanUm sinalizador que indica se deve ser usado O que é Photon? para executar o pipeline. Photon é o mecanismo Spark de alto desempenho da Databricks. Os pipelines habilitados para Photon são cobrados a uma taxa diferente dos pipelines não habilitados para Photon. O campo photoné opcional. O valor default éfalse.
- 
pipelines.maxFlowRetryAttemptsTipo: intSe ocorrer uma falha que pode ser repetida durante uma atualização do pipeline, este é o número máximo de vezes para tentar novamente um fluxo antes que a atualização do pipeline falhe. padrão: Duas tentativas de repetição. Quando ocorre uma falha que pode ser repetida, o tempo de execução do pipeline declarativo LakeFlow tenta executar o fluxo três vezes, incluindo a tentativa original. 
- 
pipelines.numUpdateRetryAttemptsTipo: intSe ocorrer uma falha que pode ser repetida durante uma atualização, esse será o número máximo de vezes para tentar a atualização novamente antes que ela falhe permanentemente. A nova tentativa é executada como uma atualização completa. Este parâmetro se aplica somente ao pipeline em execução no modo de produção. Não serão feitas novas tentativas se o seu pipeline estiver em modo de desenvolvimento ou quando você executar uma atualização Validate.padrão: - Cinco para pipeline acionado.
- Ilimitado para pipeline contínuo.
 
Propriedades da tabela de pipeline declarativaLakeFlow
Além das propriedades de tabela suportadas pelo Delta Lake, você pode definir as seguintes propriedades de tabela.
- 
pipelines.autoOptimize.zOrderColspadrão: Nenhum Uma strings opcional contendo uma lista separada por vírgulas de nomes de coluna para esta tabela em Z-order. Por exemplo, pipelines.autoOptimize.zOrderCols = "year,month"
- 
pipelines.reset.allowedpadrão: trueControla se uma refresh completa é permitida para esta tabela. 
- 
pipelines.autoOptimize.managedpadrão: trueHabilita ou desabilita a otimização agendada automaticamente desta tabela. Para gerenciamento de pipeline por otimização preditiva, esta propriedade não é usada. 
intervalo de disparo do pipeline
Você pode especificar um intervalo de acionamento pipeline para todo o pipeline ou como parte de uma declaração de dataset . Consulte Definir intervalo de disparo para pipeline contínuo.
- 
pipelines.trigger.intervalO default é baseado no tipo de fluxo: - Cinco segundos para consultas de transmissão.
- Um minuto para consultas completas quando todos os dados de entrada são de fontes Delta.
- Dez minutos para consultas completas quando algumas fontes de dados podem não ser Delta.
 O valor é um número mais a unidade de tempo. As seguintes são as unidades de tempo válidas: - second,- seconds
- minute,- minutes
- hour,- hours
- day,- days
 Você pode usar a unidade singular ou plural ao definir o valor, por exemplo: - {"pipelines.trigger.interval" : "1 hour"}
- {"pipelines.trigger.interval" : "10 seconds"}
- {"pipelines.trigger.interval" : "30 second"}
- {"pipelines.trigger.interval" : "1 minute"}
- {"pipelines.trigger.interval" : "10 minutes"}
- {"pipelines.trigger.interval" : "10 minute"}
 
Atributos de cluster que não podem ser definidos pelo usuário
Como o pipeline declarativo LakeFlow gerencia os ciclos de vida cluster , muitas configurações cluster são definidas pelo pipeline declarativo LakeFlow e não podem ser configuradas manualmente pelos usuários, seja em uma configuração pipeline ou em uma política de cluster usada por um pipeline. A tabela a seguir lista essas configurações e por que elas não podem ser definidas manualmente.
- 
cluster_nameO pipeline declarativo LakeFlow define os nomes dos clusters usados para executar atualizações pipeline . Esses nomes não podem ser substituídos. 
- 
data_security_modeaccess_modeEsses valores são definidos automaticamente pelo sistema. 
- 
spark_versionclusters de pipeline declarativos LakeFlow são executados em uma versão personalizada do Databricks Runtime que é continuamente atualizada para incluir os recursos mais recentes. A versão do Spark está incluída na versão do Databricks Runtime e não pode ser substituída. 
- 
autotermination_minutesComo o pipeline declarativo LakeFlow gerencia a lógica de reutilização e o término automático cluster , o tempo de término automático cluster não pode ser substituído. 
- 
runtime_engineEmbora você possa controlar esse campo habilitando o Photon para seu pipeline, não é possível definir esse valor diretamente. 
- 
effective_spark_versionEste valor é definido automaticamente pelo sistema. 
- 
cluster_sourceEste campo é definido pelo sistema e é somente leitura. 
- 
docker_imageComo o pipeline declarativo LakeFlow gerencia o ciclo de vida cluster , você não pode usar um contêiner personalizado com clusters pipeline . 
- 
workload_typeEste valor é definido pelo sistema e não pode ser substituído.