Pular para o conteúdo principal

Carregar, transformar e gravar dados com o pipeline

Os artigos desta seção fornecem padrões, recomendações e exemplos comuns de ingestão de dados e transformações no pipeline de DLT e gravação de dados transformados em um serviço externo. Ao ingerir dados de origem para criar o conjunto de dados inicial em um pipeline, esses conjuntos de dados iniciais são comumente chamados de tabelas de bronze e geralmente realizam transformações simples. Por outro lado, as tabelas finais em um pipeline, comumente chamadas de tabelas de ouro , geralmente exigem agregações complicadas ou leitura de fontes que são alvos de uma APPLY CHANGES INTO operação.

Carregar dados

O senhor pode carregar dados de qualquer fonte de dados compatível com o site Apache Spark em Databricks usando DLT. Para obter exemplos de padrões para carregar dados de diferentes fontes, incluindo armazenamento de objetos na nuvem, barramentos de mensagens como o Kafka e sistemas externos como o PostgreSQL, consulte Carregar dados com DLT. Esses exemplos recorrem a recomendações como o uso de tabelas de transmissão com Auto Loader em DLT para uma experiência de ingestão otimizada.

Fluxos de dados

Na DLT, um fluxo é uma consulta de transmissão que processa os dados de origem de forma incremental para atualizar uma tabela de transmissão de destino. Muitas consultas de transmissão necessárias para implementar uma DLT pipeline criam um fluxo implícito como parte da definição da consulta. O DLT também suporta a declaração explícita de fluxos quando é necessário um processamento mais especializado. Para saber mais sobre os fluxos DLT e ver exemplos de uso de fluxos para implementar a tarefa de processamento de dados, consulte Carregar e processar dados de forma incremental com fluxos DLT.

captura de dados de alterações (CDC) (CDC)

A captura de dados de alterações (CDC) (CDC) é um padrão de integração de dados que captura as alterações feitas nos dados em um sistema de origem, como inserções, atualizações e exclusões. O CDC é comumente usado para replicar com eficiência tabelas de um sistema de origem para o Databricks. A DLT simplifica o CDC com a API APPLY CHANGES. Ao tratar automaticamente os registros fora de sequência, a API APPLY CHANGES API na DLT garante o processamento correto dos registros CDC e elimina a necessidade de desenvolver uma lógica complexa para lidar com registros fora de sequência. Consulte O que é captura de dados de alterações (CDC) (CDC )? e a opção APPLY CHANGES APIs: Simplificar a captura de dados de alterações (CDC) com DLT.

transformação de dados

Com o DLT, o senhor pode declarar transformações no conjunto de dados e especificar como os registros são processados por meio da lógica de consulta. Para obter exemplos de padrões de transformações comuns ao criar um pipeline DLT, incluindo o uso de tabelas de transmissão, visualização materializada, união estática de transmissão e modelos MLflow no pipeline, consulte transformação de dados com pipeline.

Otimize o processamento de estado em DLT com marcas d'água

Para gerenciar efetivamente os dados mantidos no estado, o senhor pode usar marcas d'água ao executar o processamento de transmissão com estado na DLT, incluindo agregações, junções e deduplicação. No processamento de transmissão, uma marca d'água é um Apache Spark recurso que pode definir um limite baseado em tempo para o processamento de dados ao realizar operações com estado. Os dados que chegam são processados até que o limite seja atingido e, nesse momento, a janela de tempo definida pelo limite é fechada. As marcas d'água podem ser usadas para evitar problemas durante o processamento de consultas, principalmente ao processar um conjunto de dados maior ou um processamento de longa duração.

Para exemplos e recomendações, consulte Otimizar o processamento de estado em DLT com marcas d'água.

Gravar registros em um serviço externo com sinks DLT

info

Visualização

A API DLT sink está em pré-visualização pública.

Além de persistir os dados transformados em Databricks gerenciar Delta tabelas em Unity Catalog e no Hive metastoreo senhor pode usar sinks DLT para persistir em destinos externos, incluindo serviços de transmissão de eventos, como Apache Kafka ou Azure Event Hubs, e tabelas externas gerenciadas por Unity Catalog ou Hive metastore. Veja os registros de transmissão para serviços externos com sinks DLT.