Pular para o conteúdo principal

LakeFlow Pipeline declarativo language reference Python

Esta seção contém detalhes sobre a interface de programação do pipeline declarativo LakeFlow Python .

Visão geral do módulodlt

LakeFlow As funções declarativas do pipeline Python são definidas no módulo dlt. Seu pipeline implementado com o Python API deve importar esse módulo:

Python
import dlt

Funções para dataset definições

LakeFlow O pipeline declarativo usa o decorador Python para definir o conjunto de dados, como a visualização materializada e as tabelas de transmissão. Consulte Funções para definir o conjunto de dados.

Referência da API

Considerações sobre Python LakeFlow Pipeline declarativo

A seguir, há considerações importantes quando o senhor implementa o pipeline com a interface LakeFlow Declarative pipeline Python:

  • LakeFlow O pipeline declarativo avalia o código que define um pipeline várias vezes durante o planejamento e pipeline execução. Python As funções que definem o conjunto de dados devem incluir apenas o código necessário para definir a tabela ou view. A lógica arbitrária do Python incluída nas definições do dataset pode levar a um comportamento inesperado.
  • Não tente implementar lógica de monitoramento personalizada em suas definições do site dataset. Consulte Definir monitoramento personalizado do pipeline declarativo LakeFlow com ganchos de eventos.
  • A função usada para definir um dataset deve retornar um Spark DataFrame. Não inclua lógica em suas definições de dataset que não esteja relacionada a um DataFrame retornado.
  • Nunca use métodos que salvem ou gravem em arquivos ou tabelas como parte do seu código LakeFlow Declarative pipeline dataset.

Exemplos de Apache Spark operações que nunca devem ser usadas em LakeFlow código de pipeline declarativo:

  • collect()
  • count()
  • toPandas()
  • save()
  • saveAsTable()
  • start()
  • toTable()