Engenharia de dados com Databricks
Databricks fornece soluções completas de engenharia de dados que capacitam engenheiros de dados, desenvolvedores de software, desenvolvedores de SQL, analistas e data scientists a fornecer dados de alta qualidade para aplicativos analíticos, AI e operacionais downstream.
A imagem a seguir mostra a arquitetura dos sistemas de engenharia de dados do Databricks, incluindo Jobs, LakeFlow Connect, DLT e Databricks Runtime.
Consulte as seções a seguir para obter mais informações:
área de recurso | Descrição |
---|---|
Simplifica a ingestão de dados com conectores para aplicativos corporativos populares, bancos de dados, armazenamento em nuvem, barramentos de mensagens e arquivos locais. Um subconjunto desses conectores está disponível como conectores gerenciar. Os conectores gerenciar fornecem uma interface de usuário simples e um serviço de ingestão baseado em configuração com o mínimo de sobrecarga operacional, sem exigir que o senhor use a infraestrutura e o site DLT APIs subjacentes. Para saber mais, consulte: | |
Uma estrutura declarativa que reduz a complexidade de criar e gerenciar lotes eficientes e pipeline de transmissão de dados. DLT execução no Databricks Runtime otimizado em termos de desempenho, e os fluxos do DLT API usam o mesmo DataFrame API que o Apache Spark e a transmissão estruturada. Um fluxo pode gravar em tabelas de transmissão e em sinks, como um tópico do Kafka, usando a semântica de transmissão, ou pode gravar em um view materializado usando a semântica de lotes. Além disso, o site DLT orquestra automaticamente a execução de fluxos, sinks, tabelas de transmissão e visualizações materializadas, encapsulando-as e executando-as como um pipeline. Para saber mais, consulte: | |
Fornece orquestração confiável e monitoramento de produção para qualquer carga de trabalho de dados e AI. Um trabalho pode consistir em uma ou mais tarefas que executam o Notebook, o pipeline, gerenciam conectores, SQL consultas, treinamento de aprendizado de máquina e implantação e inferência de modelos. As tarefas também oferecem suporte à lógica de fluxo de controle personalizada, como ramificação com instruções if/else e repetição com para cada instrução. Para saber mais, consulte: | |
Um ambiente compute confiável e com desempenho otimizado para executar cargas de trabalho Spark, incluindo lotes e transmissão. Databricks Runtime fornece Photon, um mecanismo de consulta vetorizada nativo de alto desempenho Databrickse várias otimizações de infraestrutura, como autoscale. O senhor pode executar suas cargas de trabalho Spark e transmissão estruturada no Databricks Runtime criando seus programas Spark como Notebook, JARs ou Python wheels. Para saber mais, consulte: |
Recurso adicional
- Os conceitos de engenharia de dados descrevem os conceitos de engenharia de dados na Databricks.
- O Delta Lake é a camada de armazenamento otimizada que fornece a base para as tabelas em um lakehouse no Databricks.
- As práticas recomendadas de engenharia de dados ensinam os senhores sobre as práticas recomendadas de engenharia de dados na Databricks.
- Databricks O notebook é uma ferramenta popular para colaboração e desenvolvimento.
- O Databricks SQL descreve o uso de consultas SQL e ferramentas de BI no Databricks.
- O Databricks Mosaic AI descreve a arquitetura de soluções de aprendizado de máquina.