LakeFlow Pipeline declarativo language reference Python
Esta seção contém detalhes sobre a interface de programação do pipeline declarativo LakeFlow Python .
- Para obter informações conceituais e uma visão geral do uso do Python para o pipeline declarativo LakeFlow, consulte Desenvolver o código pipeline com o Python.
- Para obter referência em SQL, consulte a referência de linguagemLakeFlow Declarative pipeline SQL.
- Para obter detalhes específicos sobre a configuração do Auto Loader, consulte O que é o Auto Loader?
Visão geral do módulodlt
LakeFlow As funções declarativas do pipeline Python são definidas no módulo dlt
. Seu pipeline implementado com o Python API deve importar esse módulo:
Python
import dlt
Funções para dataset definições
LakeFlow O pipeline declarativo usa o decorador Python para definir o conjunto de dados, como a visualização materializada e as tabelas de transmissão. Consulte Funções para definir o conjunto de dados.
Referência da API
- anexar fluxo
- criar_auto_cdc_flow
- criar_auto_cdc_from_snapshot_flow
- create_sink
- create_streaming_table
- Expectativas
- tabela
- ver
Considerações sobre Python LakeFlow Pipeline declarativo
A seguir, há considerações importantes quando o senhor implementa o pipeline com a interface LakeFlow Declarative pipeline Python:
- LakeFlow O pipeline declarativo avalia o código que define um pipeline várias vezes durante o planejamento e pipeline execução. Python As funções que definem o conjunto de dados devem incluir apenas o código necessário para definir a tabela ou view. A lógica arbitrária do Python incluída nas definições do dataset pode levar a um comportamento inesperado.
- Não tente implementar lógica de monitoramento personalizada em suas definições do site dataset. Consulte Definir monitoramento personalizado do pipeline declarativo LakeFlow com ganchos de eventos.
- A função usada para definir um dataset deve retornar um Spark DataFrame. Não inclua lógica em suas definições de dataset que não esteja relacionada a um DataFrame retornado.
- Nunca use métodos que salvem ou gravem em arquivos ou tabelas como parte do seu código LakeFlow Declarative pipeline dataset.
Exemplos de Apache Spark operações que nunca devem ser usadas em LakeFlow código de pipeline declarativo:
collect()
count()
toPandas()
save()
saveAsTable()
start()
toTable()