Limitações do pipeline
A seguir, apresentamos algumas limitações do pipeline declarativo LakeFlow Spark que é importante conhecer ao desenvolver seu pipeline:
-
Um workspace Databricks é limitado a 200 atualizações pipeline concorrentes. O número de conjuntos de dados que um único pipeline pode conter é determinado pela configuração pipeline e pela complexidade da carga de trabalho.
-
O conjunto de dados do pipeline pode ser definido apenas uma vez. Por isso, eles podem ser alvo de apenas uma única operação em todo o pipeline. A exceção são as tabelas de transmissão com processamento de fluxo de acréscimo, que permitem escrever na tabela de transmissão a partir de múltiplas fontes de transmissão. Consulte Usando vários fluxos para gravar em um único destino.
-
As colunas de identidade têm as seguintes limitações. Para saber mais sobre colunas de identidade em tabelas Delta, consulte Usar colunas de identidade no Delta Lake.
- Colunas de identidade não são suportadas com tabelas que são o destino do processamento AUTO CDC .
- As colunas de identidade podem ser recalculadas durante atualizações em uma visão materializada. Por esse motivo, Databricks recomenda o uso de colunas de identidade em pipelines somente com tabelas de transmissão.
-
As tabelas de visualização materializada e de transmissão publicadas a partir do pipeline, incluindo aquelas criadas pelo Databricks SQL, só podem ser acessadas por clientes e aplicativos Databricks . No entanto, para tornar sua visão materializada e tabelas de transmissão acessíveis externamente, você pode usar a API
sinkpara gravar em tabelas em uma instância Delta externa. Consulte Usar coletores para transmissão de registros para serviço externo com pipeline declarativo LakeFlow Spark. -
Há limitações para o compute do Databricks necessário para executar e consultar o pipeline Unity Catalog . Consulte os Requisitos para pipelines que publicam no Unity Catalog.
-
As consultas de viagem do tempo Delta Lake são suportadas apenas com tabelas de transmissão e não são suportadas com visualizações materializadas. Veja a história da tabela Trabalhar com Delta Lake.
-
Não é possível habilitar leiturasIceberg em visualizações materializadas e tabelas de transmissão.
-
A função
pivot()não é suportada. As operaçõespivotno Spark exigem o carregamento antecipado de dados de entrada para compute o esquema de saída. Essa funcionalidade não é suportada no pipeline.