Limitações de pipeline
A seguir, apresentamos algumas limitações do pipeline declarativo LakeFlow Spark que é importante conhecer ao desenvolver seu pipeline:
-
Um workspace Databricks está limitado a 1000 atualizações pipeline simultâneas. O número de conjuntos de dados que um único pipeline pode conter é determinado pela configuração pipeline e pela complexidade da carga de trabalho.
-
A configuração de um pipeline inclui referências a arquivos e pastas de origem.
-
Se a configuração fizer referência apenas a Notebooks ou arquivos individuais, o limite por pipeline é de 100 arquivos de origem.
-
Se a configuração incluir pastas, você poderá incluir até 50 entradas de origem compostas por arquivos ou pastas.
Referenciar uma pasta indiretamente referencia os arquivos dentro dessa pasta. Neste caso, o limite para o número de arquivos referenciados (direta ou indiretamente) é 1000.
Se precisar de mais de 100 arquivos de origem, organize-os em pastas. Para aprender como usar pastas para armazenar arquivos de origem, consulte o navegador de pipelines ativos no editor LakeFlow Pipelines .
-
-
Datasets de pipeline só podem ser definidos uma vez. Por causa disso, elas podem ser o alvo de apenas uma única operação em todos os pipelines. A exceção são as tabelas de transmissão com processamento de fluxo de acréscimo, o que permite gravar na tabela de transmissão a partir de múltiplas fontes de transmissão. Veja default flows e fluxos de acréscimo.
-
As colunas de identidade têm as seguintes limitações. Para saber mais sobre colunas de identidade em tabelas Delta, consulte Colunas de identidade.
- Colunas de identidade não são suportadas com tabelas que são o destino do processamento AUTO CDC .
- As colunas de identidade podem ser recalculadas durante atualizações em uma visão materializada. Por esse motivo, Databricks recomenda o uso de colunas de identidade em pipelines somente com tabelas de transmissão.
-
Por default, views materializadas e tabelas de transmissão podem ser acessadas apenas por clientes e aplicações Databricks. Para torná-los acessíveis a sistemas externos, consulte Acessar views materializadas e tabelas de transmissão usando sistemas externos.
-
Há limitações para o compute do Databricks necessário para executar e consultar o pipeline Unity Catalog . Consulte os Requisitos para pipelines que publicam no Unity Catalog.
-
As consultas de viagem do tempo Delta Lake são suportadas apenas com tabelas de transmissão e não são suportadas com visões materializadas. Consulte Trabalhar com a história da tabela.
-
Não é possível habilitar leiturasIceberg em visualizações materializadas e tabelas de transmissão.
-
A função
pivot()não é suportada. As operaçõespivotno Spark exigem o carregamento antecipado de dados de entrada para compute o esquema de saída. Essa funcionalidade não é suportada no pipeline.
Para cotas de recursos de pipeline declarativos LakeFlow Spark , consulte limites de recursos.