Pular para o conteúdo principal

Limitações de pipeline

A seguir, apresentamos algumas limitações do pipeline declarativo LakeFlow Spark que é importante conhecer ao desenvolver seu pipeline:

  • Um workspace Databricks está limitado a 1000 atualizações pipeline simultâneas. O número de conjuntos de dados que um único pipeline pode conter é determinado pela configuração pipeline e pela complexidade da carga de trabalho.

  • A configuração de um pipeline inclui referências a arquivos e pastas de origem.

    • Se a configuração fizer referência apenas a Notebooks ou arquivos individuais, o limite por pipeline é de 100 arquivos de origem.

    • Se a configuração incluir pastas, você poderá incluir até 50 entradas de origem compostas por arquivos ou pastas.

      Referenciar uma pasta indiretamente referencia os arquivos dentro dessa pasta. Neste caso, o limite para o número de arquivos referenciados (direta ou indiretamente) é 1000.

    Se precisar de mais de 100 arquivos de origem, organize-os em pastas. Para aprender como usar pastas para armazenar arquivos de origem, consulte o navegador de pipelines ativos no editor LakeFlow Pipelines .

  • Datasets de pipeline só podem ser definidos uma vez. Por causa disso, elas podem ser o alvo de apenas uma única operação em todos os pipelines. A exceção são as tabelas de transmissão com processamento de fluxo de acréscimo, o que permite gravar na tabela de transmissão a partir de múltiplas fontes de transmissão. Veja default flows e fluxos de acréscimo.

  • As colunas de identidade têm as seguintes limitações. Para saber mais sobre colunas de identidade em tabelas Delta, consulte Colunas de identidade.

    • Colunas de identidade não são suportadas com tabelas que são o destino do processamento AUTO CDC .
    • As colunas de identidade podem ser recalculadas durante atualizações em uma visão materializada. Por esse motivo, Databricks recomenda o uso de colunas de identidade em pipelines somente com tabelas de transmissão.
  • Por default, views materializadas e tabelas de transmissão podem ser acessadas apenas por clientes e aplicações Databricks. Para torná-los acessíveis a sistemas externos, consulte Acessar views materializadas e tabelas de transmissão usando sistemas externos.

  • Há limitações para o compute do Databricks necessário para executar e consultar o pipeline Unity Catalog . Consulte os Requisitos para pipelines que publicam no Unity Catalog.

  • As consultas de viagem do tempo Delta Lake são suportadas apenas com tabelas de transmissão e não são suportadas com visões materializadas. Consulte Trabalhar com a história da tabela.

  • Não é possível habilitar leiturasIceberg em visualizações materializadas e tabelas de transmissão.

  • A função pivot() não é suportada. As operações pivot no Spark exigem o carregamento antecipado de dados de entrada para compute o esquema de saída. Essa funcionalidade não é suportada no pipeline.

Para cotas de recursos de pipeline declarativos LakeFlow Spark , consulte limites de recursos.