Pular para o conteúdo principal

referência de propriedades de dutos

Este artigo fornece uma referência para a especificação de configurações JSON pipeline e propriedades de tabela no pipeline declarativo LakeFlow Spark . Para obter mais detalhes sobre como usar essas várias propriedades e configurações, consulte os seguintes artigos:

Configurações de pipeline

  • id

    Tipo: string

    Um identificador globalmente exclusivo para este pipeline. O identificador é atribuído pelo sistema e não pode ser alterado.

  • name

    Tipo: string

    Um nome amigável para este pipeline. O nome pode ser usado para identificar o trabalho pipeline na interface do usuário.

  • configuration

    Tipo: object

    Uma lista opcional de configurações para adicionar à configuração Spark do cluster que executará o pipeline. Essas configurações são lidas pelo ambiente de execução do pipeline declarativo do LakeFlow Spark e ficam disponíveis para consultas pipeline por meio da configuração Spark .

    Os elementos devem ser formatados como pares key:value .

  • libraries

    Tipo: array of objects

    Uma matriz de arquivos de código contendo o código do pipeline e os artefatos necessários.

  • clusters

    Tipo: array of objects

    Uma série de especificações para os clusters executarem o pipeline.

    Se isso não for especificado, o pipeline selecionará automaticamente uma configuração cluster default para o pipeline.

  • development

    Tipo: boolean

    Um sinalizador que indica se o pipeline deve ser executado em Modo development ou production .

    O valor default é true

  • notifications

    Tipo: array of objects

    Uma matriz opcional de especificações para notificações email quando uma atualização pipeline é concluída, falha com um erro que pode ser repetido, falha com um erro que não pode ser repetido ou um fluxo falha.

  • continuous

    Tipo: boolean

    Um sinalizador que indica se o pipeline deve ser executado continuamente.

    O valor default é false.

  • catalog

    Tipo: string

    O nome do catálogo default para o pipeline, onde todos os conjuntos de dados e metadados do pipeline são publicados. Definir esse valor habilita o Unity Catalog para o pipeline.

    Se não for definido, o pipeline será publicado no Hive metastore Hive legado usando o local especificado em storage.

    No modo de publicação legado, especifica o catálogo que contém o esquema de destino onde todos os conjuntos de dados do pipeline atual são publicados. Veja o esquema LIVE (legado).

  • schema

    Tipo: string

    O nome do esquema default para o pipeline, onde todos os conjuntos de dados e metadados para o pipeline são publicados por default. Consulte Definir o catálogo de destino e o esquema.

  • target (legado)

    Tipo: string

    O nome do esquema de destino onde todos os conjuntos de dados definidos no pipeline atual são publicados.

    Definir target em vez de schema configura o pipeline para usar o modo de publicação legado. Veja o esquema LIVE (legado).

  • storage (legado)

    Tipo: string

    Um local no DBFS ou armazenamento cloud onde os dados de saída e metadados necessários para a execução pipeline são armazenados. Tabelas e metadados são armazenados em subdiretórios deste local.

    Quando a configuração storage não for especificada, o sistema usará como default um local em dbfs:/pipelines/.

    A configuração storage não pode ser alterada após a criação de um pipeline.

  • channel

    Tipo: string

    A versão do ambiente de execução do pipeline declarativo do LakeFlow Spark a ser utilizada. Os valores suportados são:

    • preview para testar seu pipeline com as próximas alterações na versão do runtime.
    • current para usar a versão atual do runtime.

    O campo channel é opcional. O valor default é current. A Databricks recomenda usar a versão atual do tempo de execução para cargas de trabalho de produção.

  • edition

    Tipo string

    Edição do produto do pipeline declarativo LakeFlow Spark para execução do pipeline. Essa configuração permite que você escolha a melhor edição do produto com base nos requisitos do seu pipeline:

    • CORE para execução transmissão ingerir cargas de trabalho.
    • PRO para execução de transmissão de ingest e captura de dados de alterações (CDC) (CDC) cargas de trabalho.
    • ADVANCED para execução de cargas de trabalho de ingestão de transmissões, cargas de trabalho CDC e cargas de trabalho que exigem expectativas para impor restrições de qualidade de dados.

    O campo edition é opcional. O valor default é ADVANCED.

  • photon

    Tipo: boolean

    Um sinalizador que indica se deve ser usado O que é Photon? para executar o pipeline. Photon é o mecanismo Spark de alto desempenho da Databricks. Os pipelines habilitados para Photon são cobrados a uma taxa diferente dos pipelines não habilitados para Photon.

    O campo photon é opcional. O valor default é false.

  • pipelines.maxFlowRetryAttempts

    Tipo: int

    Se ocorrer uma falha que pode ser repetida durante uma atualização do pipeline, este é o número máximo de vezes para tentar novamente um fluxo antes que a atualização do pipeline falhe.

    Padrão: Duas tentativas. Quando ocorre uma falha que permite nova tentativa, o ambiente de execução do pipeline declarativo LakeFlow Spark tenta executar o fluxo três vezes, incluindo a tentativa original.

  • pipelines.numUpdateRetryAttempts

    Tipo: int

    Se ocorrer uma falha que pode ser repetida durante uma atualização, esse será o número máximo de vezes para tentar a atualização novamente antes que ela falhe permanentemente. A nova tentativa é executada como uma atualização completa.

    Este parâmetro se aplica somente ao pipeline em execução no modo de produção. Não serão feitas novas tentativas se o seu pipeline estiver em modo de desenvolvimento ou quando você executar uma atualização Validate .

    padrão:

    • Cinco para pipeline acionado.
    • Ilimitado para pipeline contínuo.

Propriedades da tabela de pipeline

Além das propriedades de tabela suportadas pelo Delta Lake, você pode definir as seguintes propriedades de tabela.

  • pipelines.autoOptimize.zOrderCols

    padrão: Nenhum

    Uma strings opcional contendo uma lista separada por vírgulas de nomes de coluna para esta tabela em Z-order. Por exemplo, pipelines.autoOptimize.zOrderCols = "year,month"

  • pipelines.reset.allowed

    padrão: true

    Controla se uma refresh completa é permitida para esta tabela.

  • pipelines.autoOptimize.managed

    padrão: true

    Habilita ou desabilita a otimização agendada automaticamente desta tabela.

    Para gerenciamento de pipeline por otimização preditiva, esta propriedade não é usada.

intervalo de disparo do pipeline

Você pode especificar um intervalo de acionamento pipeline para todo o pipeline ou como parte de uma declaração de dataset . Consulte Definir intervalo de disparo para pipeline contínuo.

  • pipelines.trigger.interval

    O default é baseado no tipo de fluxo:

    • Cinco segundos para consultas de transmissão.
    • Um minuto para consultas completas quando todos os dados de entrada são de fontes Delta.
    • Dez minutos para consultas completas quando algumas fontes de dados podem não ser Delta.

    O valor é um número mais a unidade de tempo. As seguintes são as unidades de tempo válidas:

    • second, seconds
    • minute, minutes
    • hour, hours
    • day, days

    Você pode usar a unidade singular ou plural ao definir o valor, por exemplo:

    • {"pipelines.trigger.interval" : "1 hour"}
    • {"pipelines.trigger.interval" : "10 seconds"}
    • {"pipelines.trigger.interval" : "30 second"}
    • {"pipelines.trigger.interval" : "1 minute"}
    • {"pipelines.trigger.interval" : "10 minutes"}
    • {"pipelines.trigger.interval" : "10 minute"}

Atributos de cluster que não podem ser definidos pelo usuário

Como o pipeline declarativo Spark (SDP) LakeFlow gerencia os ciclos de vida cluster , muitas configurações cluster são definidas pelo sistema e não podem ser configuradas manualmente pelos usuários, seja em uma configuração pipeline ou em uma política de cluster usada por um pipeline. A tabela a seguir lista essas configurações e explica por que elas não podem ser definidas manualmente.

  • cluster_name

    O SDP define os nomes dos clusters usados para executar atualizações pipeline . Esses nomes não podem ser alterados.

  • data_security_mode

    access_mode

    Esses valores são definidos automaticamente pelo sistema.

  • spark_version

    O SDP executa clusters em uma versão personalizada do Databricks Runtime , que é continuamente atualizada para incluir os recursos mais recentes. A versão do Spark está incluída na versão do Databricks Runtime e não pode ser substituída.

  • autotermination_minutes

    Como o SDP gerencia a lógica de encerramento automático e reutilização cluster , o tempo de encerramento automático cluster não pode ser alterado.

  • runtime_engine

    Embora você possa controlar esse campo habilitando o Photon para seu pipeline, não é possível definir esse valor diretamente.

  • effective_spark_version

    Este valor é definido automaticamente pelo sistema.

  • cluster_source

    Este campo é definido pelo sistema e é somente leitura.

  • docker_image

    Como o SDP gerencia o ciclo de vida cluster , você não pode usar um contêiner personalizado com clusters pipeline .

  • workload_type

    Este valor é definido pelo sistema e não pode ser substituído.