Pular para o conteúdo principal

Limitações do pipeline

A seguir, apresentamos algumas limitações do pipeline declarativo LakeFlow Spark que é importante conhecer ao desenvolver seu pipeline:

  • Um workspace Databricks é limitado a 200 atualizações pipeline concorrentes. O número de conjuntos de dados que um único pipeline pode conter é determinado pela configuração pipeline e pela complexidade da carga de trabalho.

  • O conjunto de dados do pipeline pode ser definido apenas uma vez. Por isso, eles podem ser alvo de apenas uma única operação em todo o pipeline. A exceção são as tabelas de transmissão com processamento de fluxo de acréscimo, que permitem escrever na tabela de transmissão a partir de múltiplas fontes de transmissão. Consulte Usando vários fluxos para gravar em um único destino.

  • As colunas de identidade têm as seguintes limitações. Para saber mais sobre colunas de identidade em tabelas Delta, consulte Usar colunas de identidade no Delta Lake.

    • Colunas de identidade não são suportadas com tabelas que são o destino do processamento AUTO CDC .
    • As colunas de identidade podem ser recalculadas durante atualizações em uma visão materializada. Por esse motivo, Databricks recomenda o uso de colunas de identidade em pipelines somente com tabelas de transmissão.
  • As tabelas de visualização materializada e de transmissão publicadas a partir do pipeline, incluindo aquelas criadas pelo Databricks SQL, só podem ser acessadas por clientes e aplicativos Databricks . No entanto, para tornar sua visão materializada e tabelas de transmissão acessíveis externamente, você pode usar a API sink para gravar em tabelas em uma instância Delta externa. Consulte Usar coletores para transmissão de registros para serviço externo com pipeline declarativo LakeFlow Spark.

  • Há limitações para o compute do Databricks necessário para executar e consultar o pipeline Unity Catalog . Consulte os Requisitos para pipelines que publicam no Unity Catalog.

  • As consultas de viagem do tempo Delta Lake são suportadas apenas com tabelas de transmissão e não são suportadas com visualizações materializadas. Veja a história da tabela Trabalhar com Delta Lake.

  • Não é possível habilitar leiturasIceberg em visualizações materializadas e tabelas de transmissão.

  • A função pivot() não é suportada. As operações pivot no Spark exigem o carregamento antecipado de dados de entrada para compute o esquema de saída. Essa funcionalidade não é suportada no pipeline.