Engenharia de dados com Databricks

Databricks fornece LakeFlow, uma solução completa de engenharia de dados que capacita engenheiros de dados, desenvolvedores de software, desenvolvedores de SQL, analistas e data scientists a fornecer dados de alta qualidade para aplicativos analíticos, AI e operacionais downstream. LakeFlow é uma solução unificada para ingestão, transformações e orquestração de seus dados, e inclui LakeFlow Connect, LakeFlow Declarative pipeline e LakeFlow Jobs.

LakeFlow Connect

LakeFlow Connect simplifica a ingestão de dados com conectores para aplicativos corporativos populares, bancos de dados, armazenamento em nuvem, barramentos de mensagens e arquivos locais. Veja LakeFlow Connect.

Recurso	Descrição
gerenciar conectores	Os conectores gerenciar fornecem uma interface de usuário simples e um serviço de ingestão baseado em configuração com o mínimo de sobrecarga operacional, sem exigir que o senhor use o pipeline LakeFlow Declarative APIs e a infraestrutura subjacentes.
Conectores padrão	Os conectores padrão oferecem a capacidade de acessar dados de uma variedade maior de fontes de dados no pipeline declarativo LakeFlow ou em outras consultas.

LakeFlow Pipeline declarativo

LakeFlow O Declarative Pipeline é uma estrutura declarativa que reduz a complexidade da criação e do gerenciamento de lotes eficientes e do pipeline de transmissão de dados. LakeFlow Execução de pipeline declarativo no site otimizado para desempenho Databricks Runtime. Além disso, o LakeFlow Declarative pipeline orquestra automaticamente a execução de fluxos, sinks, tabelas de transmissão e visualizações materializadas, encapsulando-as e executando-as como um pipeline. Consulte LakeFlow Pipeline declarativo.

Recurso	Descrição
Fluxos	Os fluxos processam dados em LakeFlow Declarative pipeline. Os fluxos API usam o mesmo DataFrame API que Apache Spark e transmissão estruturada. Um fluxo pode gravar em tabelas de transmissão e em sinks, como um tópico do Kafka, usando a semântica de transmissão, ou pode gravar em um view materializado usando a semântica de lotes.
Tabelas de streaming	Uma tabela de transmissão é uma tabela Delta com suporte adicional para transmissão ou processamento incremental de dados. Ele atua como um alvo para um ou mais fluxos no pipeline declarativo LakeFlow.
Visualizações materializadas	Um view materializado é um view com resultados em cache para acesso mais rápido. Um view materializado atua como um alvo para o pipeline declarativo LakeFlow.
Pias	LakeFlow O pipeline declarativo suporta coletores de dados externos como alvos. Esses sinks podem incluir serviços de transmissão de eventos, como Apache Kafka ou Azure Event Hubs, bem como tabelas externas gerenciadas por Unity Catalog.

LakeFlow Empregos

LakeFlow Os trabalhos fornecem orquestração confiável e monitoramento de produção para qualquer carga de trabalho de dados e AI. Um trabalho pode consistir em uma ou mais tarefas que executam o Notebook, o pipeline, gerenciam conectores, SQL consultas, treinamento de aprendizado de máquina e implantação e inferência de modelos. As tarefas também oferecem suporte à lógica de fluxo de controle personalizada, como ramificação com instruções if/else e repetição com para cada instrução. Veja LakeFlow Jobs.

Recurso	Descrição
Jobs	Os trabalhos são o principal recurso para a orquestração. Eles representam um processo que você deseja realizar de forma programada.
Tarefas	Uma unidade específica de trabalho em um trabalho. Há uma variedade de tipos de tarefas que oferecem ao senhor uma gama de opções que podem ser executadas em um trabalho.
Fluxo de controle no trabalho	A tarefa de fluxo de controle permite que o usuário controle a execução de outra tarefa ou a ordem de execução da tarefa.

Databricks Runtime para Apache Spark

O Databricks Runtime é um ambiente compute confiável e com desempenho otimizado para a execução de cargas de trabalho do Spark, incluindo lotes e transmissão. Databricks Runtime fornece Photon, um mecanismo de consulta vetorizada nativo de alto desempenho Databrickse várias otimizações de infraestrutura, como autoscale. O senhor pode executar suas cargas de trabalho Spark e transmissão estruturada no Databricks Runtime criando seus programas Spark como Notebook, JARs ou Python wheels. Consulte Databricks Runtime para Apache Spark.

Recurso	Descrição
Apache Spark no Databricks	O Spark está no centro da Plataforma de Inteligência de Dados da Databricks.
Transmissão estruturada	A transmissão estruturada é o mecanismo de processamento real do Spark near time para dados de transmissão.

O que aconteceu com as Delta Live Tables (DLT)?

O produto anteriormente conhecido como Delta Live Tables (DLT) agora é LakeFlow Declarative pipeline. Não é necessária nenhuma migração para usar o pipeline declarativo LakeFlow.

nota

Ainda há algumas referências ao nome DLT no Databricks. O SKU clássico para LakeFlow Declarative pipeline ainda começa com DLT e APIs com DLT no nome não foi alterado.

Recurso adicional

Os conceitos de engenharia de dados descrevem os conceitos de engenharia de dados na Databricks.
O Delta Lake é a camada de armazenamento otimizada que fornece a base para as tabelas em um lakehouse no Databricks.
As práticas recomendadas de engenharia de dados ensinam os senhores sobre as práticas recomendadas de engenharia de dados na Databricks.
Databricks O notebook é uma ferramenta popular para colaboração e desenvolvimento.
O Databricks SQL descreve o uso de consultas SQL e ferramentas de BI no Databricks.
O Databricks Mosaic AI descreve a arquitetura de soluções de aprendizado de máquina.

LakeFlow Connect​

LakeFlow Pipeline declarativo​

LakeFlow Empregos​

Databricks Runtime para Apache Spark​

O que aconteceu com as Delta Live Tables (DLT)?​

Recurso adicional​