arquiteturas de referência da lakehouse (download)

Este artigo fornece orientações arquitetônicas para o lakehouse, abrangendo fonte de dados, ingestão, transformações, consulta e processamento, serviço, análise e armazenamento.

Cada arquitetura de referência tem um PDF para download em formato 11 x 17 (A3).

Enquanto o lakehouse no Databricks é uma plataforma aberta que se integra a um grande ecossistema de ferramentas de parceiros, as arquiteturas de referência se concentram apenas no AWS serviço e no Databricks lakehouse. Os serviços de provedores de nuvem mostrados são selecionados para ilustrar os conceitos e não são exaustivos.

Arquitetura de referência para o Databricks lakehouse no AWS.

Download: Arquitetura de referência para o lakehouse do Databricks na AWS

A arquitetura de referência do AWS mostra os seguintes serviços específicos do AWSpara ingestão, armazenamento, fornecimento e análise:

Amazon Redshift como fonte para Lakehouse Federation
Amazon AppFlow e AWS Glue para ingestão em lote
AWS IoT Core, Amazon Kinesis e AWS DMS para ingestão de streaming
Amazon S3 como o armazenamento de objetos para dados e AI ativo
Amazon RDS e Amazon DynamoDB como bancos de dados operacionais
Amazon QuickSight como ferramenta de BI
Amazon Bedrock é usado pelo servindo modelo para chamar LLMs externos a partir da inicialização do AI principal e Amazon

Organização das arquiteturas de referência

A arquitetura de referência está estruturada de acordo com as raias de natação Source , Ingest , Transform , Query/Process , Serve , análise e Storage :

Origem

Há três maneiras de integrar dados externos à Plataforma de Inteligência de Dados:
- ETL: A plataforma permite a integração com sistemas que fornecem dados semiestruturados e não estruturados (como sensores, dispositivos IoT, mídia, arquivos e logs), bem como dados estruturados de bancos de dados relacionais ou aplicativos comerciais.
- lakehouse Federation: SQL fontes, como bancos de dados relacionais, podem ser integradas ao lakehouse e Unity Catalog sem ETL. Nesse caso, os dados do sistema de origem são controlados pelo Unity Catalog, e as consultas são enviadas para o sistema de origem.
- Federação de catálogos: Os catálogos externos Hive metastore ou AWS Glue também podem ser integrados a Unity Catalog por meio da federação de catálogos, permitindo que Unity Catalog controle as tabelas armazenadas em Hive metastore ou AWS Glue.
Ingerir

Ingerir dados no site lakehouse por meio de lotes ou transmissão:
- Databricks LakeFlow Connect oferece conectores integrados para ingestão de aplicativos e bancos de dados corporativos. A ingestão resultante pipeline é governada por Unity Catalog e é alimentada por serverless compute e LakeFlow Pipeline declarativo.
- Os arquivos entregues ao armazenamento em nuvem podem ser carregados diretamente usando o Databricks Auto Loader.
- Para lotes de ingestão de dados de aplicativos corporativos no Delta Lakepara o Databricks lakehouse depende de ferramentas de ingestão de parceiros com adaptadores específicos para esses sistemas de registro.
- Os eventos de transmissão podem ser ingeridos diretamente dos sistemas de transmissão de eventos, como Kafka, usando Databricks transmissão estructurada. As fontes de transmissão podem ser sensores, IoT, ou processos de captura de dados de alterações (CDC).
Armazenar
- Em geral, os dados são armazenados em um sistema de armazenamento em nuvem em que o pipeline ETL usa a arquitetura de medalhão para armazenar dados de forma organizada como arquivos/tabelasDelta ou tabelasApache Iceberg.
Transformação e consulta//processo
- O Databricks lakehouse usa seus mecanismos Apache Spark e Photon para todas as transformações e consultas.
- LakeFlow O Declarative Pipeline é uma estrutura declarativa para simplificar e otimizar o pipeline de processamento de dados confiável, sustentável e testável.
- Com base em Apache Spark e Photon, a Databricks Data Intelligence Platform oferece suporte a ambos os tipos de cargas de trabalho: SQL consultas via SQL warehouse e SQL, Python e Scala cargas de trabalho via workspace clustering.
- Para ciência de dados (ML Modeling and Gen),AI a Databricks AI plataforma and Machine Learning fornece tempos de execução especializados ML para e para AutoML codificação ML Job. Toda a ciência de dados e oMLOps fluxo de trabalho têm o melhor suporte do MLflow.
Disponibilizando
- Para os casos de uso data warehousing (DWH) e BI, o Databricks lakehouse fornece Databricks SQLo data warehouse powered by SQL warehouse, e o serverless SQL warehouse.
- Para aprendizado de máquina, Mosaic AI Model Serving é um recurso de modelo de serviço escalável, de tempo real e de nível empresarial hospedado no plano de controle Databricks. Mosaic AI Gateway é Databricks soluções para governar e monitorar o acesso a modelos generativos AI suportados e seu endpoint de modelo de serviço associado.
- Bancos de dados operacionais:
  - O Lakebase é um banco de dados de processamento de transações online (OLTP) baseado em Postgres e totalmente integrado à plataforma de inteligência de dados Databricks. Permite criar bancos de dados OLTP em um Databricks e integrar cargas de trabalho OLTP ao seu lakehouse.
  - Sistemas externos, como bancos de dados operacionais, podem ser utilizados para armazenar e entregar o produto final de dados às aplicações do usuário.
Colaboração :
- Os parceiros comerciais obtêm acesso seguro aos dados de que necessitam através do Delta Sharing.
- Com base em Delta Sharing, o Databricks Marketplace é um fórum aberto para o intercâmbio de dados sobre produtos.
- As salas limpas são ambientes seguros e que protegem a privacidade, nos quais vários usuários podem trabalhar juntos em dados corporativos confidenciais sem acesso direto aos dados uns dos outros.
Análise
- As aplicações comerciais finais estão nesta pista de natação. Os exemplos incluem clientes personalizados, como os aplicativos AI conectados ao Mosaic AI Model Serving para inferência do tempo real ou aplicativos que acessam dados enviados do site lakehouse para um banco de dados operacional.
- Para os casos de uso do BI, os analistas normalmente usam as ferramentas doBI para acessar o data warehouse. Os desenvolvedores de SQL podem usar adicionalmente o Databricks SQL Editor (não mostrado no diagrama) para consultas e painéis.
- A Data Intelligence Platform também oferece painéis para criar visualizações de dados e compartilhar percepções.
Integrar
- A plataforma Databricks integra-se aos provedores de identidade padrão para gerenciamento de usuários e logon único (SSO).
- Serviços externos AI como o OpenAI, LangChain ou HuggingFace podem ser usados diretamente na Databricks Intelligence Platform.
- Os orquestradores externos podem usar a API REST abrangente ou conectores dedicados a ferramentas de orquestração externas, como o Apache Airflow.
- Unity Catalog é usado para toda a governança de dados e AI na Databricks Intelligence Platform e pode integrar outros bancos de dados à sua governança por meio da Lakehouse Federation.
  
  Além disso, o Unity Catalog pode ser integrado a outros catálogos empresariais. Entre em contato com o fornecedor do catálogo corporativo para obter detalhes.

Recursos comuns para todas as cargas de trabalho

Além disso, o Databricks lakehouse vem com recursos de gerenciamento compatíveis com todas as cargas de trabalho:

Governança de dados e IA

O sistema central de governança de dados e AI na Databricks Data Intelligence Platform é Unity Catalog. Unity Catalog fornece um único local para gerenciar políticas lakehousede acesso a dados que se aplicam a todo o espaço de trabalho e oferece suporte a todos os ativos criados ou usados no site, como tabelas, volumes, recursos(recurso store) e modelos(registro de modelo). O Unity Catalog também pode ser usado para capturar a linhagem de dados em tempo de execução nas consultas executadas no Databricks.

Databricks lakehouse O monitoramento permite que o senhor monitore a qualidade dos dados de todas as tabelas em seu site account. Ele também pode rastrear o desempenho do modelo do aprendizado de máquina e do endpoint do modelo de serviço.

Para fins de observabilidade, as tabelas do sistema são um armazenamento analítico hospedado no site Databricksdos dados operacionais do seu site account. As tabelas do sistema podem ser usadas para observação histórica em seu site account.
Mecanismo de inteligência de dados

A Databricks Data Intelligence Platform permite que toda a sua organização use dados e AI, combinando a geração AI com os benefícios de unificação de um lakehouse para entender a semântica exclusiva de seus dados. Consulte Databricks AI-recurso potente.

O Databricks Assistant está disponível no Databricks Notebook, no editor SQL, no editor de arquivos e em outros lugares como um assistente AI sensível ao contexto para os usuários.
Automação & orquestração

LakeFlow Os trabalhos orquestram o processamento de dados, o aprendizado de máquina e o pipeline analítico na Databricks Data Intelligence Platform. LakeFlow O pipeline declarativo permite que o senhor crie um pipeline confiável e ETL de fácil manutenção com sintaxe declarativa. A plataforma também oferece suporte a CI/CD e MLOps

Casos de uso de alto nível para a Data Intelligence Platform no AWS

ingestão integrada de aplicativos e bancos de dados do site SaaS com LakeFlow Connect

Ingestão com LFC em Databricks on AWS.

download: LakeFlow Connect arquitetura de referência para Databricks on AWS

Databricks LakeFlow Connect oferece conectores integrados para ingestão de aplicativos e bancos de dados corporativos. A ingestão resultante pipeline é governada por Unity Catalog e é alimentada por serverless compute e LakeFlow Pipeline declarativo.

LakeFlow Connect utiliza leituras e gravações incrementais eficientes para tornar a ingestão de dados mais rápida, dimensionável e econômica, enquanto seus dados permanecem atualizados para consumo downstream.

Ingestão de lotes e ETL

lotes ETL arquitetura de referência em Databricks on AWS.

Download: Arquitetura de referência de ETL em lote para Databricks na AWS

As ferramentas de ingestão usam adaptadores específicos da fonte para ler os dados da fonte e, em seguida, armazená-los no armazenamento em nuvem, de onde Auto Loader pode lê-los, ou chamar Databricks diretamente (por exemplo, com ferramentas de ingestão de parceiros integradas ao Databricks lakehouse). Para carregar os dados, o Databricks ETL e o mecanismo de processamento executam as consultas por meio do LakeFlow Declarative pipeline. Orquestre um trabalho único ou multitarefa usando LakeFlow Jobs e administre-os usando Unity Catalog (controle de acesso, auditoria, linhagem e assim por diante). Para fornecer acesso a tabelas golden específicas para sistemas operacionais de baixa latência, exporte as tabelas para um banco de dados operacional, como um armazenamento de valores RDBMS ou keyno final do ETL pipeline.

transmissão e captura de dados de alterações (CDC) (CDC)

Spark transmissão estructurada architecture on Databricks on AWS.

Download: arquitetura de transmissão estruturada do Spark para Databricks on AWS

O mecanismo Databricks ETL Spark transmissão estruturada para leitura de filas de eventos, como Apache Kafka ou AWS Kinesis. As etapas posteriores seguem a abordagem do caso de uso lotes acima.

O tempo real de captura de dados de alterações (CDC) (CDC) normalmente usa uma fila de eventos para armazenar os eventos extraídos. A partir daí, o caso de uso segue o caso de uso de transmissão.

Se o CDC for feito em lote, onde os registros extraídos são armazenados primeiro no armazenamento em nuvem, o Databricks Autoloader poderá lê-los e o caso de uso seguirá o ETL em lote.

Aprendizado de máquina e AI (tradicional)

Aprendizado de máquina e AI arquitetura de referência para Databricks on AWS.

Download: Arquitetura de referência de aprendizado de máquina e IA para Databricks na AWS

Para o aprendizado de máquina, a Databricks Data Intelligence Platform Mosaic AI fornece, que vem com uma máquina de última geração e uma biblioteca profunda de aprendizado. Ele oferece recursos como o recurso Store e Model Registry Unity Catalogo recurso (ambos integrados ao), recurso low-code com AutoML e MLflow a integração do ao ciclo de vida da ciência de dados.

Toda a ciência de dados relacionada ao ativo (tabelas, recursos e modelos) é governada por Unity Catalog e data scientists pode usar LakeFlow Jobs para orquestrar seu trabalho.

Para implantar modelos de forma escalonável e de nível empresarial, use os MLOps recursos para publicar os modelos no servindo modelo.

AI Aplicativos de agente (Gen ) AI

Gen AI arquitetura de referência de aplicativos para Databricks on AWS.

download: Gen AI arquitetura de referência de aplicativos para Databricks on AWS

Para implantar modelos de maneira escalável e de nível empresarial, use os recursos de MLOps para publicar os modelos no serviço de modelos.

BI e analítica SQL

BI e SQL arquitetura de referência analítica para Databricks on AWS.

Download: arquitetura de referência de análise de BI e SQL para Databricks on AWS

Para os casos de uso do BI, o analista de negócios pode usar dashboards, o editorDatabricks SQL ou ferramentasBI como Tableau ou Amazon QuickSight. Em todos os casos, o mecanismo é Databricks SQL (serverless ou nãoserverless), e Unity Catalog fornece descobrimento de dados, exploração, linhagem e controle de acesso.

Aplicativos de negócios

Aplicativos empresariais para Databricks on AWS.

download: Aplicativos de negócios para Databricks on AWS

Databricks Os aplicativos permitem que os desenvolvedores criem e implementem aplicativos seguros de dados e e AI es diretamente na plataforma Databricks, eliminando a necessidade de infraestrutura separada. Os aplicativos são hospedados na plataforma Databricks serverless e integram-se à plataforma key serviço. Utilize o Lakebase se o aplicativo necessitar de dados OLTP sincronizados a partir do lakehouse.

lakehouse federation

arquitetura de referência da lakehouse federation para Databricks on AWS.

Download: arquitetura de referência da Lakehouse Federation para Databricks on AWS

A lakehouse Federation permite que bancos de dados externos SQL (como MySQL, Postgres ou Redshift) sejam integrados ao Databricks.

Todas as cargas de trabalho (IA, DWH e BI) podem se beneficiar disso sem a necessidade de ETL dos dados no armazenamento de objetos primeiro. O catálogo de fontes externas é associado no catálogo do Unity e o controle de acesso refinado pode ser aplicado ao acesso por meio da plataforma Databricks.

Federação de catálogos

Arquitetura de referência da federação de catálogos para Databricks on AWS.

download: Arquitetura de referência da federação de catálogos para Databricks on AWS

A federação de catálogos permite que os Hive Metastores externos (como MySQL, Postgres ou Redshift) ou o Amazon Glue sejam integrados ao Databricks.

Todas as cargas de trabalho (AI, DWH e BI) podem se beneficiar disso sem a necessidade de ETL os dados no armazenamento de objetos primeiro. O catálogo de fontes externas é adicionado ao Unity Catalog, onde o controle de acesso refinado é aplicado por meio da plataforma Databricks.

Compartilhe dados com ferramentas de terceiros

Arquitetura de referência de compartilhamento de dados corporativos para Databricks on AWS.

download: Compartilhe dados com ferramentas de terceiros - arquitetura de referência para Databricks on AWS

O compartilhamento de dados de nível empresarial com terceiros é fornecido pelo Delta Sharing. Ele permite o acesso direto aos dados no armazenamento de objetos protegido pelo Unity Catalog. Esse recurso também é usado no Databricks Marketplaceum fórum aberto para troca de dados de produtos.

Consumir dados compartilhados de Databricks

Consumir dados compartilhados de Databricks para Databricks on AWS.

Faça o download: Consumir dados compartilhados da arquitetura de referência do Databricks para o Databricks on AWS

O protocoloDelta Sharing Databricks-to-Databricks permite compartilhar dados com segurança com qualquer usuário Databricks, independentemente do account ou do host da nuvem, desde que esse usuário tenha acesso a um workspace habilitado para Unity Catalog.

Organização das arquiteturas de referência​

Recursos comuns para todas as cargas de trabalho​

Casos de uso de alto nível para a Data Intelligence Platform no AWS​

ingestão integrada de aplicativos e bancos de dados do site SaaS com LakeFlow Connect​

Ingestão de lotes e ETL​

transmissão e captura de dados de alterações (CDC) (CDC)​

Aprendizado de máquina e AI (tradicional)​

AI Aplicativos de agente (Gen ) AI​

BI e analítica SQL​

Aplicativos de negócios​

lakehouse federation​

Federação de catálogos​

Compartilhe dados com ferramentas de terceiros​

Consumir dados compartilhados de Databricks​