LakeFlow Referência de propriedades declarativas do pipeline

Este artigo fornece uma referência para o LakeFlow Declarative pipeline JSON que define a especificação e as propriedades da tabela em Databricks. Para obter mais detalhes sobre o uso dessas várias propriedades e configurações, consulte os artigos a seguir:

LakeFlow Configurações declarativas do pipeline

Campos
`id` Tipo: `string` Um identificador globalmente exclusivo para esse pipeline. O identificador é atribuído pelo sistema e não pode ser alterado.
`name` Tipo: `string` Um nome fácil de usar para esse pipeline. O nome pode ser usado para identificar o pipeline Job na interface do usuário.
`configuration` Tipo: `object` Uma lista opcional de configurações a serem adicionadas à configuração Spark do clustering que executará o pipeline. Essas configurações são lidas pelo tempo de execução do pipeline declarativo LakeFlow e estão disponíveis para as consultas pipeline por meio da configuração Spark. Os elementos devem ser formatados como pares `key:value`.
`libraries` Tipo: `array of objects` Uma matriz de Notebook que contém o código pipeline e os artefatos necessários.
`clusters` Tipo: `array of objects` Uma matriz de especificações para o clustering para executar o pipeline. Se isso não for especificado, o pipeline selecionará automaticamente uma configuração de clustering default para o pipeline.
`development` Tipo: `boolean` Um sinalizador que indica se o senhor deve executar o pipeline em `development` ou no modo `production`. O valor de default é `true`
`notifications` Tipo: `array of objects` Uma matriz opcional de especificações para as notificações do site email quando uma atualização do site pipeline for concluída, falhar com um erro recuperável, falhar com um erro não recuperável ou um fluxo falhar.
`continuous` Tipo: `boolean` Um sinalizador que indica se o site pipeline deve ser executado continuamente. O valor de default é `false`.
`catalog` Tipo: `string` O nome do catálogo default para o pipeline, onde todos os conjuntos de dados e metadados do pipeline são publicados. A definição desse valor ativa o Unity Catalog para o pipeline. Se não for definido, o site pipeline publica no site legado Hive metastore usando o local especificado em `storage`. No modo de publicação herdado, especifica o catálogo que contém o esquema de destino em que todos os conjuntos de dados do site pipeline atual são publicados. Consulte esquema LIVE (legado).
`schema` Tipo: `string` O nome do esquema default para o pipeline, onde todos os conjuntos de dados e metadados do pipeline são publicados pelo default. Consulte Definir o catálogo e o esquema de destino.
`target` (legado) Tipo: `string` O nome do esquema de destino em que todos os conjuntos de dados definidos no site pipeline atual são publicados. Definir `target` em vez de `schema` configura o pipeline para usar o modo de publicação herdado. Consulte esquema LIVE (legado).
`storage` (legado) Tipo: `string` Um local no DBFS ou no armazenamento em nuvem onde são armazenados os dados de saída e os metadados necessários para a execução do pipeline. Tabelas e metadados são armazenados em subdiretórios desse local. Quando a configuração `storage` não for especificada, o sistema acessará default para um local em `dbfs:/pipelines/`. A configuração `storage` não pode ser alterada após a criação de um pipeline.
`channel` Tipo: `string` A versão do tempo de execução do pipeline LakeFlow Declarative a ser usada. Os valores suportados são: - `preview` para testar seu pipeline com as próximas alterações na versão do tempo de execução. - `current` para usar a versão de tempo de execução atual. O campo `channel` é opcional. O valor de default é `current`. A Databricks recomenda usar a versão atual do tempo de execução para cargas de trabalho de produção.
`edition` Tipo `string` O LakeFlow Declarative pipeline produto edition para executar o pipeline. Essa configuração permite que o senhor escolha a melhor edição do produto com base nos requisitos do seu pipeline: - `CORE` para cargas de trabalho de execução, transmissão e ingestão. - `PRO` para cargas de trabalho de execução, transmissão, ingestão e captura de dados de alterações (CDC) (CDC). - `ADVANCED` para execução transmissão de cargas de trabalho de ingestão, CDC cargas de trabalho e cargas de trabalho que exigem LakeFlow expectativas de pipeline declarativo para impor restrições de qualidade de dados. O campo `edition` é opcional. O valor de default é `ADVANCED`.
`photon` Tipo: `boolean` Um sinalizador que indica se o senhor deve usar o What is Photon? para executar o pipeline. O Photon é o mecanismo Spark de alto desempenho da Databricks. O pipeline habilitado para fóton é cobrado a uma taxa diferente do pipeline não habilitado para fóton. O campo `photon` é opcional. O valor de default é `false`.
`pipelines.maxFlowRetryAttempts` Tipo: `int` Se ocorrer uma falha tentável durante uma atualização do pipeline, esse é o número máximo de vezes para tentar novamente um fluxo antes de falhar na atualização do pipeline padrão: Duas tentativas de repetição. Quando ocorre uma falha tentável, o tempo de execução do pipeline LakeFlow Declarative tenta executar o fluxo três vezes, incluindo a tentativa original.
`pipelines.numUpdateRetryAttempts` Tipo: `int` Se ocorrer uma falha que pode ser repetida durante uma atualização, esse é o número máximo de vezes para tentar novamente a atualização antes de falhar permanentemente na atualização. A nova tentativa é executada como uma atualização completa. Esse parâmetro se aplica somente ao pipeline em execução no modo de produção. Não haverá tentativas de novas tentativas se o site pipeline for executado no modo de desenvolvimento ou se o senhor executar uma atualização `Validate`. padrão: - Cinco para o pipeline acionado. - Ilimitado para pipeline contínuo.

LakeFlow Propriedades declarativas da tabela de pipeline

Além das propriedades de tabela suportadas pelo Delta Lake, o senhor pode definir as seguintes propriedades de tabela.

Propriedades da tabela
`pipelines.autoOptimize.zOrderCols` padrão: Nenhum Uma strings opcional contendo uma lista separada por vírgulas de nomes de coluna para esta tabela em Z-order. Por exemplo, `pipelines.autoOptimize.zOrderCols = "year,month"`
`pipelines.reset.allowed` padrão: `true` Controla se um refresh completo é permitido para essa tabela.
`pipelines.autoOptimize.managed` padrão: `true` Ativa ou desativa a otimização programada automaticamente dessa tabela. Para gerenciar pipelines por meio de otimização preditiva, essa propriedade não é usada.

intervalo de acionamento do pipeline

O senhor pode especificar um intervalo de acionamento pipeline para todo o pipeline ou como parte de uma declaração dataset. Consulte Definir intervalo de acionamento para pipeline contínuo.

`pipelines.trigger.interval`
O site default é baseado no tipo de fluxo: - Cinco segundos para consultas de transmissão. - Um minuto para consultas completas quando todos os dados de entrada são de fontes Delta. - Dez minutos para consultas completas quando alguma fonte de dados pode ser não-Delta. O valor é um número mais a unidade de tempo. A seguir estão as unidades de tempo válidas: - `second`, `seconds` - `minute`, `minutes` - `hour`, `hours` - `day`, `days` Você pode usar a unidade singular ou plural ao definir o valor, por exemplo: - `{"pipelines.trigger.interval" : "1 hour"}` - `{"pipelines.trigger.interval" : "10 seconds"}` - `{"pipelines.trigger.interval" : "30 second"}` - `{"pipelines.trigger.interval" : "1 minute"}` - `{"pipelines.trigger.interval" : "10 minutes"}` - `{"pipelines.trigger.interval" : "10 minute"}`

pipelines.trigger.interval

O site default é baseado no tipo de fluxo: - Cinco segundos para consultas de transmissão. - Um minuto para consultas completas quando todos os dados de entrada são de fontes Delta. - Dez minutos para consultas completas quando alguma fonte de dados pode ser não-Delta. O valor é um número mais a unidade de tempo. A seguir estão as unidades de tempo válidas: - second, seconds - minute, minutes - hour, hours - day, days Você pode usar a unidade singular ou plural ao definir o valor, por exemplo: - {"pipelines.trigger.interval" : "1 hour"} - {"pipelines.trigger.interval" : "10 seconds"} - {"pipelines.trigger.interval" : "30 second"} - {"pipelines.trigger.interval" : "1 minute"} - {"pipelines.trigger.interval" : "10 minutes"} - {"pipelines.trigger.interval" : "10 minute"}

atributos de agrupamento que não podem ser definidos pelo usuário

Como o LakeFlow Declarative pipeline gerencia ciclos de vida de clustering, muitas configurações de clustering são definidas pelo LakeFlow Declarative pipeline e não podem ser configuradas manualmente pelos usuários, seja em uma configuração pipeline ou em uma política de cluster usada por um pipeline. A tabela a seguir lista essas configurações e por que elas não podem ser definidas manualmente.

Campos
`cluster_name` LakeFlow O pipeline declarativo define os nomes do clustering usado para executar as atualizações do pipeline. Esses nomes não podem ser substituídos.
`data_security_mode` `access_mode` Esses valores são definidos automaticamente pelo sistema.
`spark_version` LakeFlow Execução de clustering de pipeline declarativo em uma versão personalizada do Databricks Runtime que é continuamente atualizada para incluir o recurso mais recente. A versão do Spark é fornecida com a versão do Databricks Runtime e não pode ser substituída.
`autotermination_minutes` Como o LakeFlow Declarative pipeline gerencia a lógica de terminação automática e reutilização do clustering, o tempo de terminação automática do clustering não pode ser substituído.
`runtime_engine` Embora o senhor possa controlar esse campo ativando o Photon para o seu pipeline, não é possível definir esse valor diretamente.
`effective_spark_version` Esse valor é definido automaticamente pelo sistema.
`cluster_source` Esse campo é definido pelo sistema e é somente para leitura.
`docker_image` Como o LakeFlow Declarative pipeline gerencia o ciclo de vida do clustering, não é possível usar um contêiner personalizado com o pipeline clustering.
`workload_type` Esse valor é definido pelo sistema e não pode ser substituído.

LakeFlow Configurações declarativas do pipeline​

LakeFlow Propriedades declarativas da tabela de pipeline​

intervalo de acionamento do pipeline​

atributos de agrupamento que não podem ser definidos pelo usuário​

LakeFlow Configurações declarativas do pipeline

LakeFlow Propriedades declarativas da tabela de pipeline

intervalo de acionamento do pipeline

atributos de agrupamento que não podem ser definidos pelo usuário