referência de propriedades de dutos

Este artigo fornece uma referência para a especificação de configurações JSON pipeline e propriedades de tabela no pipeline declarativo LakeFlow Spark . Para obter mais detalhes sobre como usar essas várias propriedades e configurações, consulte os seguintes artigos:

Configurações de pipeline

id

Tipo: string

Um identificador globalmente exclusivo para este pipeline. O identificador é atribuído pelo sistema e não pode ser alterado.
name

Tipo: string

Um nome amigável para este pipeline. O nome pode ser usado para identificar o trabalho pipeline na interface do usuário.
configuration

Tipo: object

Uma lista opcional de configurações para adicionar à configuração Spark do cluster que executará o pipeline. Essas configurações são lidas pelo ambiente de execução do pipeline declarativo do LakeFlow Spark e ficam disponíveis para consultas pipeline por meio da configuração Spark .

Os elementos devem ser formatados como pares key:value .
libraries

Tipo: array of objects

Uma matriz de arquivos de código contendo o código do pipeline e os artefatos necessários.
clusters

Tipo: array of objects

Uma série de especificações para os clusters executarem o pipeline.

Se isso não for especificado, o pipeline selecionará automaticamente uma configuração cluster default para o pipeline.
development

Tipo: boolean

Um sinalizador que indica se o pipeline deve ser executado em Modo development ou production .

O valor default é true
notifications

Tipo: array of objects

Uma matriz opcional de especificações para notificações email quando uma atualização pipeline é concluída, falha com um erro que pode ser repetido, falha com um erro que não pode ser repetido ou um fluxo falha.
continuous

Tipo: boolean

Um sinalizador que indica se o pipeline deve ser executado continuamente.

O valor default é false.
catalog

Tipo: string

O nome do catálogo default para o pipeline, onde todos os conjuntos de dados e metadados do pipeline são publicados. Definir esse valor habilita o Unity Catalog para o pipeline.

Se não for definido, o pipeline será publicado no Hive metastore Hive legado usando o local especificado em storage.

No modo de publicação legado, especifica o catálogo que contém o esquema de destino onde todos os conjuntos de dados do pipeline atual são publicados. Veja o esquema LIVE (legado).
schema

Tipo: string

O nome do esquema default para o pipeline, onde todos os conjuntos de dados e metadados para o pipeline são publicados por default. Consulte Definir o catálogo de destino e o esquema.
target (legado)

Tipo: string

O nome do esquema de destino onde todos os conjuntos de dados definidos no pipeline atual são publicados.

Definir target em vez de schema configura o pipeline para usar o modo de publicação legado. Veja o esquema LIVE (legado).
storage (legado)

Tipo: string

Um local no DBFS ou armazenamento cloud onde os dados de saída e metadados necessários para a execução pipeline são armazenados. Tabelas e metadados são armazenados em subdiretórios deste local.

Quando a configuração storage não for especificada, o sistema usará como default um local em dbfs:/pipelines/.

A configuração storage não pode ser alterada após a criação de um pipeline.
channel

Tipo: string

A versão do ambiente de execução do pipeline declarativo do LakeFlow Spark a ser utilizada. Os valores suportados são:
- preview para testar seu pipeline com as próximas alterações na versão do runtime.
- current para usar a versão atual do runtime.
O campo channel é opcional. O valor default é current. A Databricks recomenda usar a versão atual do tempo de execução para cargas de trabalho de produção.
edition

Tipo string

Edição do produto do pipeline declarativo LakeFlow Spark para execução do pipeline. Essa configuração permite que você escolha a melhor edição do produto com base nos requisitos do seu pipeline:
- CORE para execução transmissão ingerir cargas de trabalho.
- PRO para execução de transmissão de ingest e captura de dados de alterações (CDC) (CDC) cargas de trabalho.
- ADVANCED para execução de cargas de trabalho de ingestão de transmissões, cargas de trabalho CDC e cargas de trabalho que exigem expectativas para impor restrições de qualidade de dados.
O campo edition é opcional. O valor default é ADVANCED.
photon

Tipo: boolean

Um sinalizador que indica se deve ser usado O que é Photon? para executar o pipeline. Photon é o mecanismo Spark de alto desempenho da Databricks. Os pipelines habilitados para Photon são cobrados a uma taxa diferente dos pipelines não habilitados para Photon.

O campo photon é opcional. O valor default é false.
pipelines.maxFlowRetryAttempts

Tipo: int

Se ocorrer uma falha que pode ser repetida durante uma atualização do pipeline, este é o número máximo de vezes para tentar novamente um fluxo antes que a atualização do pipeline falhe.

Padrão: Duas tentativas. Quando ocorre uma falha que permite nova tentativa, o ambiente de execução do pipeline declarativo LakeFlow Spark tenta executar o fluxo três vezes, incluindo a tentativa original.
pipelines.numUpdateRetryAttempts

Tipo: int

Se ocorrer uma falha que pode ser repetida durante uma atualização, esse será o número máximo de vezes para tentar a atualização novamente antes que ela falhe permanentemente. A nova tentativa é executada como uma atualização completa.

Este parâmetro se aplica somente ao pipeline em execução no modo de produção. Não serão feitas novas tentativas se o seu pipeline estiver em modo de desenvolvimento ou quando você executar uma atualização Validate .

padrão:
- Cinco para pipeline acionado.
- Ilimitado para pipeline contínuo.

Propriedades da tabela de pipeline

Além das propriedades de tabela suportadas pelo Delta Lake, você pode definir as seguintes propriedades de tabela.

pipelines.autoOptimize.zOrderCols

padrão: Nenhum

Uma strings opcional contendo uma lista separada por vírgulas de nomes de coluna para esta tabela em Z-order. Por exemplo, pipelines.autoOptimize.zOrderCols = "year,month"
pipelines.reset.allowed

padrão: true

Controla se uma refresh completa é permitida para esta tabela.
pipelines.autoOptimize.managed

padrão: true

Habilita ou desabilita a otimização agendada automaticamente desta tabela.

Para gerenciamento de pipeline por otimização preditiva, esta propriedade não é usada.

intervalo de disparo do pipeline

Você pode especificar um intervalo de acionamento pipeline para todo o pipeline ou como parte de uma declaração de dataset . Consulte Definir intervalo de disparo para pipeline contínuo.

pipelines.trigger.interval

O default é baseado no tipo de fluxo:
- Cinco segundos para consultas de transmissão.
- Um minuto para consultas completas quando todos os dados de entrada são de fontes Delta.
- Dez minutos para consultas completas quando algumas fontes de dados podem não ser Delta.
O valor é um número mais a unidade de tempo. As seguintes são as unidades de tempo válidas:
- second, seconds
- minute, minutes
- hour, hours
- day, days
Você pode usar a unidade singular ou plural ao definir o valor, por exemplo:
- {"pipelines.trigger.interval" : "1 hour"}
- {"pipelines.trigger.interval" : "10 seconds"}
- {"pipelines.trigger.interval" : "30 second"}
- {"pipelines.trigger.interval" : "1 minute"}
- {"pipelines.trigger.interval" : "10 minutes"}
- {"pipelines.trigger.interval" : "10 minute"}

Atributos de cluster que não podem ser definidos pelo usuário

Como o pipeline declarativo Spark (SDP) LakeFlow gerencia os ciclos de vida cluster , muitas configurações cluster são definidas pelo sistema e não podem ser configuradas manualmente pelos usuários, seja em uma configuração pipeline ou em uma política de cluster usada por um pipeline. A tabela a seguir lista essas configurações e explica por que elas não podem ser definidas manualmente.

cluster_name

O SDP define os nomes dos clusters usados para executar atualizações pipeline . Esses nomes não podem ser alterados.
data_security_mode

access_mode

Esses valores são definidos automaticamente pelo sistema.
spark_version

O SDP executa clusters em uma versão personalizada do Databricks Runtime , que é continuamente atualizada para incluir os recursos mais recentes. A versão do Spark está incluída na versão do Databricks Runtime e não pode ser substituída.
autotermination_minutes

Como o SDP gerencia a lógica de encerramento automático e reutilização cluster , o tempo de encerramento automático cluster não pode ser alterado.
runtime_engine

Embora você possa controlar esse campo habilitando o Photon para seu pipeline, não é possível definir esse valor diretamente.
effective_spark_version

Este valor é definido automaticamente pelo sistema.
cluster_source

Este campo é definido pelo sistema e é somente leitura.
docker_image

Como o SDP gerencia o ciclo de vida cluster , você não pode usar um contêiner personalizado com clusters pipeline .
workload_type

Este valor é definido pelo sistema e não pode ser substituído.

Configurações de pipeline​

Propriedades da tabela de pipeline​

intervalo de disparo do pipeline​

Atributos de cluster que não podem ser definidos pelo usuário​

Configurações de pipeline

Propriedades da tabela de pipeline

intervalo de disparo do pipeline

Atributos de cluster que não podem ser definidos pelo usuário