Engenharia de dados com Databricks

Databricks fornece LakeFlow, uma solução de engenharia de dados ponta a ponta que capacita engenheiros de dados, desenvolvedores software , desenvolvedores SQL , analistas e data scientists a fornecer dados de alta qualidade para análises downstream, AI e aplicações operacionais. LakeFlow é uma solução unificada para ingestão, transformação e orquestração de seus dados, e inclui LakeFlow Connect, LakeFlow Spark Declarative pipeline e LakeFlow Jobs.

LakeFlow Connect

LakeFlow Connect simplifica a ingestão de dados com conectores para aplicativos corporativos populares, bancos de dados, armazenamento em nuvem, barramentos de mensagens e arquivos locais. Veja LakeFlow Connect.

Recurso	Descrição
gerenciar conectores	Os conectores gerencia oferecem uma interface de usuário simples e um serviço de ingestão baseado em configuração com sobrecarga operacional mínima, sem exigir que você use as APIs e a infraestrutura subjacentes pipeline .
Conectores padrão	Os conectores padrão oferecem a capacidade de acessar dados de uma gama mais ampla de fontes de dados a partir de seu pipeline ou de outras consultas.

Pipeline declarativoLakeFlow Spark (SDP)

O pipeline declarativo LakeFlow Spark , ou SDP, é uma estrutura declarativa que reduz a complexidade de construção e gerenciamento de lotes e pipelines de dados eficientes. LakeFlow SDP estende e é interoperável com o pipeline declarativo Apache Spark , enquanto é executado no Databricks Runtime otimizado para desempenho. O SDP orquestra automaticamente a execução de fluxos, destinos, tabelas de transmissão e visualizações materializadas, encapsulando-os e executando-os como um pipeline. Veja o pipeline declarativoLakeFlow Spark.

Recurso	Descrição
Fluxos	Fluxos processam dados em um pipeline. A API de fluxos usa a mesma API DataFrame que Apache Spark e a transmissão estruturada. Um fluxo pode escrever em tabelas de transmissão e destinos, como um tópico Kafka , usando a semântica de transmissão, ou pode escrever em uma view materializada usando a semântica de lotes.
Tabelas de streaming	Uma tabela Delta é uma tabela Delta com suporte adicional para processamento de dados incrementais ou de transmissão. Ele serve como alvo para um ou mais fluxos em um oleoduto.
Visualizações materializadas	Uma view materializada é uma view com resultados armazenados em cache para acesso mais rápido. Uma view materializada atua como um alvo para o pipeline.
Pias	O suporte do pipeline permite que destinos de dados externos sejam utilizados como alvos. Esses destinos podem incluir serviços de transmissão de eventos, como Apache Kafka ou Azure Event Hubs, tabelas externas gerenciadas pelo Unity Catalog ou destinos personalizados definidos em Python.

LakeFlow Empregos

LakeFlow Os trabalhos fornecem orquestração confiável e monitoramento de produção para qualquer carga de trabalho de dados e AI. Um trabalho pode consistir em uma ou mais tarefas que executam o Notebook, o pipeline, gerenciam conectores, SQL consultas, treinamento de aprendizado de máquina e implantação e inferência de modelos. As tarefas também oferecem suporte à lógica de fluxo de controle personalizada, como ramificação com instruções if/else e repetição com para cada instrução. Veja LakeFlow Jobs.

Recurso	Descrição
Jobs	Os trabalhos são o principal recurso para a orquestração. Eles representam um processo que você deseja realizar de forma programada.
Tarefas	Uma unidade específica de trabalho em um trabalho. Há uma variedade de tipos de tarefas que oferecem ao senhor uma gama de opções que podem ser executadas em um trabalho.
Fluxo de controle no trabalho	A tarefa de fluxo de controle permite que o usuário controle a execução de outra tarefa ou a ordem de execução da tarefa.

Databricks Runtime para Apache Spark

O Databricks Runtime é um ambiente compute confiável e com desempenho otimizado para a execução de cargas de trabalho do Spark, incluindo lotes e transmissão. Databricks Runtime fornece Photon, um mecanismo de consulta vetorizada nativo de alto desempenho Databrickse várias otimizações de infraestrutura, como autoscale. O senhor pode executar suas cargas de trabalho Spark e transmissão estruturada no Databricks Runtime criando seus programas Spark como Notebook, JARs ou Python wheels. Consulte Databricks Runtime para Apache Spark.

Recurso	Descrição
Apache Spark no Databricks	O Spark está no centro da Plataforma de Inteligência de Dados da Databricks.
Transmissão estruturada	A transmissão estruturada é o mecanismo de processamento real do Spark near time para dados de transmissão.

O que aconteceu com as Delta Live Tables (DLT)?

Se você estiver familiarizado com as Delta Live Tables (DLT), veja O que aconteceu com as Delta Live Tables (DLT)?.

Recurso adicional

Os conceitos de engenharia de dados descrevem os conceitos de engenharia de dados na Databricks.
O Delta Lake é a camada de armazenamento otimizada que fornece a base para as tabelas em um lakehouse no Databricks.
As práticas recomendadas de engenharia de dados ensinam os senhores sobre as práticas recomendadas de engenharia de dados na Databricks.
Databricks O notebook é uma ferramenta popular para colaboração e desenvolvimento.
O Databricks SQL descreve o uso de consultas SQL e ferramentas de BI no Databricks.
O Databricks Mosaic AI descreve a arquitetura de soluções de aprendizado de máquina.

LakeFlow Connect​

Pipeline declarativoLakeFlow Spark (SDP)​

LakeFlow Empregos​

Databricks Runtime para Apache Spark​

O que aconteceu com as Delta Live Tables (DLT)?​

Recurso adicional​