Referência da linguagem DLT Python
Esta seção contém detalhes sobre a interface de programação DLT Python.
- Para obter informações conceituais e uma visão geral do uso do Python para DLT, consulte Desenvolver o código pipeline com Python.
- Para referência de SQL, consulte a referência de linguagem DLT SQL.
- Para obter detalhes específicos sobre a configuração do Auto Loader, consulte O que é o Auto Loader?
Visão geral do módulodlt
As funções DLT Python são definidas no módulo dlt
. Seu pipeline implementado com o Python API deve importar esse módulo:
Python
import dlt
Funções para dataset definições
DLT usa o decorador Python para definir o conjunto de dados, como a visualização materializada e as tabelas de transmissão. Consulte Funções para definir o conjunto de dados.
Referência da API
- anexar fluxo
- aplicar_alterações
- apply_changes_from_snapshot
- create_sink
- create_streaming_table
- Expectativas
- tabela
- ver
Considerações sobre a Python DLT
A seguir, há considerações importantes quando o senhor implementa o pipeline com a interface DLT Python :
- A DLT avalia o código que define um pipeline várias vezes durante o planejamento e a execução do pipeline. Python As funções que definem o conjunto de dados devem incluir apenas o código necessário para definir a tabela ou view. A lógica arbitrária do Python incluída nas definições do dataset pode levar a um comportamento inesperado.
- Não tente implementar lógica de monitoramento personalizada em suas definições do site dataset. Consulte Definir monitoramento personalizado do pipeline DLT com ganchos de eventos.
- A função usada para definir um dataset deve retornar um Spark DataFrame. Não inclua lógica em suas definições de dataset que não esteja relacionada a um DataFrame retornado.
- Nunca use métodos que salvem ou gravem em arquivos ou tabelas como parte de seu código DLT dataset .
Exemplos de operações do Apache Spark que nunca devem ser usadas no código DLT:
collect()
count()
toPandas()
save()
saveAsTable()
start()
toTable()