Pular para o conteúdo principal

Engenharia de dados com Databricks

Databricks fornece soluções completas de engenharia de dados que capacitam engenheiros de dados, desenvolvedores de software, desenvolvedores de SQL, analistas e data scientists a fornecer dados de alta qualidade para aplicativos analíticos, AI e operacionais downstream.

A imagem a seguir mostra a arquitetura dos sistemas de engenharia de dados do Databricks, incluindo Jobs, LakeFlow Connect, DLT e Databricks Runtime.

Visão geral da engenharia de dados da Databricks

Consulte as seções a seguir para obter mais informações:

área de recurso

Descrição

LakeFlow Connect

Simplifica a ingestão de dados com conectores para aplicativos corporativos populares, bancos de dados, armazenamento em nuvem, barramentos de mensagens e arquivos locais. Um subconjunto desses conectores está disponível como conectores gerenciar. Os conectores gerenciar fornecem uma interface de usuário simples e um serviço de ingestão baseado em configuração com o mínimo de sobrecarga operacional, sem exigir que o senhor use a infraestrutura e o site DLT APIs subjacentes.

Para saber mais, consulte:

DLT

Uma estrutura declarativa que reduz a complexidade de criar e gerenciar lotes eficientes e pipeline de transmissão de dados. DLT execução no Databricks Runtime otimizado em termos de desempenho, e os fluxos do DLT API usam o mesmo DataFrame API que o Apache Spark e a transmissão estruturada. Um fluxo pode gravar em tabelas de transmissão e em sinks, como um tópico do Kafka, usando a semântica de transmissão, ou pode gravar em um view materializado usando a semântica de lotes. Além disso, o site DLT orquestra automaticamente a execução de fluxos, sinks, tabelas de transmissão e visualizações materializadas, encapsulando-as e executando-as como um pipeline.

Para saber mais, consulte:

Jobs

Fornece orquestração confiável e monitoramento de produção para qualquer carga de trabalho de dados e AI. Um trabalho pode consistir em uma ou mais tarefas que executam o Notebook, o pipeline, gerenciam conectores, SQL consultas, treinamento de aprendizado de máquina e implantação e inferência de modelos. As tarefas também oferecem suporte à lógica de fluxo de controle personalizada, como ramificação com instruções if/else e repetição com para cada instrução.

Para saber mais, consulte:

Databricks Runtime para Apache Spark

Um ambiente compute confiável e com desempenho otimizado para executar cargas de trabalho Spark, incluindo lotes e transmissão. Databricks Runtime fornece Photon, um mecanismo de consulta vetorizada nativo de alto desempenho Databrickse várias otimizações de infraestrutura, como autoscale. O senhor pode executar suas cargas de trabalho Spark e transmissão estruturada no Databricks Runtime criando seus programas Spark como Notebook, JARs ou Python wheels.

Para saber mais, consulte:

Recurso adicional