Tutorial: Implementar o ETL fluxo de trabalho com o Delta Live Tables

Delta Live Tables oferece uma abordagem declarativa simples para criar ETL e machine learning pipeline em lotes ou dados de transmissão, ao mesmo tempo em que automatiza complexidades operacionais, como gerenciamento de infraestrutura, orquestração de tarefas, tratamento e recuperação de erros e otimização de desempenho. O senhor pode usar o tutorial a seguir para começar a usar o site Delta Live Tables, realizar tarefas comuns de transformação de dados e implementar fluxos de trabalho de processamento de dados mais avançados.

Crie seu primeiro pipeline com o Delta Live Tables

Para ajudá-lo a aprender sobre o recurso da estrutura Delta Live Tables e como implementar o pipeline, este tutorial o orienta na criação e execução do seu primeiro pipeline. O tutorial inclui um exemplo de ponta a ponta de um pipeline que ingere dados, limpa e prepara os dados e realiza transformações nos dados preparados. Consulte tutorial: execução seu primeiro Delta Live Tables pipeline .

Criar programaticamente várias tabelas com Python

Observação

Os padrões mostrados neste artigo não podem ser facilmente concluídos apenas com o site SQL. Como o conjunto de dados Python pode ser definido em relação a qualquer consulta que retorne um DataFrame, o senhor pode usar spark.sql() conforme necessário para usar a sintaxe SQL nas funções Python.

É possível usar as funções definidas pelo usuário (UDFs) do Python em suas consultas SQL, mas é preciso definir essas UDFs em arquivos Python no mesmo pipeline antes de chamá-las nos arquivos de origem SQL. Consulte Funções escalares definidas pelo usuário - Python.

Muitos fluxos de trabalho exigem a implementação de vários fluxos de processamento de dados ou definições do site dataset que são idênticas ou diferem em apenas alguns parâmetros. Essa redundância pode resultar em um pipeline propenso a erros e de difícil manutenção. Para resolver essa redundância, o senhor pode usar um padrão de metaprogramação com o Python. Para ver um exemplo que demonstra como usar esse padrão para chamar uma função invocada várias vezes para criar tabelas diferentes, consulte Criar várias tabelas programaticamente.

Incluir um pipeline do Delta Live Tables em um fluxo de trabalho do Databricks

Além de criar um fluxo de trabalho de processamento de dados de ponta a ponta com o Delta Live Tables, o senhor também pode usar o Delta Live Tables pipeline como uma tarefa em um fluxo de trabalho que implemente processamento de dados complexo e tarefa de análise. O tutorial in Use Databricks SQL em um Databricks Joborienta a criação de um fluxo de trabalho de ponta a ponta Databricks que inclui um Delta Live Tables pipeline para preparar dados para análise e visualização com o Databricks SQL.