Arquiteturas de referência do Databricks (download)

As arquiteturas de referência do Databricks fornecem orientação arquitetônica cobrindo fontes de dados, ingestão, transformação, consulta e processamento, fornecimento, análise e armazenamento.

Cada arquitetura de referência tem um PDF para download em formato 11 x 17 (A3).

Embora Databricks seja uma plataforma aberta que se integra a um grande ecossistema de ferramentas de parceiros, as arquiteturas de referência se concentram apenas nos serviços da AWS e na plataforma Databricks. Os serviços do provedor de cloud apresentados são selecionados para ilustrar os conceitos e não são exaustivos.

Arquitetura de referência para a plataforma Databricks na AWS.

Download: Arquitetura de referência para a plataforma Databricks na AWS

A arquitetura de referência do AWS mostra os seguintes serviços específicos do AWSpara ingestão, armazenamento, fornecimento e análise:

Amazon Redshift como fonte para Lakehouse Federation
Amazon AppFlow e AWS Glue para ingestão em lote
AWS IoT Core, Amazon Kinesis e AWS DMS para ingestão de streaming
Amazon S3 como o armazenamento de objetos para dados e AI ativo
Amazon RDS e Amazon DynamoDB como bancos de dados operacionais
Amazon QuickSight como ferramenta de BI
Amazon Bedrock é usado pelo servindo modelo para chamar LLMs externos a partir da inicialização do AI principal e Amazon

Organização das arquiteturas de referência

A arquitetura de referência está estruturada de acordo com as raias de natação Source , Ingest , Transform , Query/Process , Serve , análise e Storage :

Origem

Há três maneiras de integrar dados externos à Plataforma de Inteligência de Dados:
- ETL: A plataforma permite a integração com sistemas que fornecem dados semiestruturados e não estruturados (como sensores, dispositivos IoT, mídia, arquivos e logs), bem como dados estruturados de bancos de dados relacionais ou aplicativos comerciais.
- Lakehouse Federation: Fontes SQL, como bancos de dados relacionais, podem ser integradas ao Databricks e ao Unity Catalog sem ETL. Nesse caso, os dados do sistema de origem são governados pelo Unity Catalog, e as consultas são enviadas para o sistema de origem.
- Federação de catálogos: Os catálogos externos Hive metastore ou AWS Glue também podem ser integrados a Unity Catalog por meio da federação de catálogos, permitindo que Unity Catalog controle as tabelas armazenadas em Hive metastore ou AWS Glue.
Ingerir

Ingerir dados no Databricks via lotes ou transmissão:
- Databricks LakeFlow Connect oferece conectores integrados para ingestão de dados de aplicativos e bancos de dados corporativos. O pipeline de ingestão resultante é gerenciado pelo Unity Catalog e utiliza compute e pipeline serverless .
- Os arquivos entregues ao armazenamento em nuvem podem ser carregados diretamente usando o Databricks Auto Loader.
- Para a ingestão em lotes de dados de aplicativos empresariais no Delta Lake, a plataforma Databricks conta com ferramentas de ingestão de parceiros com adaptadores específicos para esses sistemas de registro.
- Os eventos de transmissão podem ser ingeridos diretamente dos sistemas de transmissão de eventos, como Kafka, usando Databricks transmissão estructurada. As fontes de transmissão podem ser sensores, IoT, ou processos de captura de dados de alterações (CDC).
Armazenar
- Em geral, os dados são armazenados em um sistema de armazenamento em nuvem em que o pipeline ETL usa a arquitetura de medalhão para armazenar dados de forma organizada como arquivos/tabelasDelta ou tabelasApache Iceberg.
Transformação e consulta//processo
- A plataforma Databricks usa seus mecanismos Apache Spark e Photon para todas as transformações e consultas.
- Pipeline é uma estrutura declarativa para simplificar e otimizar pipelines de processamento de dados confiáveis, de fácil manutenção e testáveis.
- Com base em Apache Spark e Photon, a Databricks Data Intelligence Platform oferece suporte a ambos os tipos de cargas de trabalho: SQL consultas via SQL warehouse e SQL, Python e Scala cargas de trabalho via workspace clustering.
- Para ciência de dados (ML Modeling and Gen),AI a Databricks AI plataforma and Machine Learning fornece tempos de execução especializados ML para e para AutoML codificação ML Job. Toda a ciência de dados e oMLOps fluxo de trabalho têm o melhor suporte do MLflow.
Disponibilizando
- Para casos de uso de data warehousing (DWH) e BI, a plataforma Databricks oferece Databricks SQL, o data warehouse alimentado por SQL warehouse, e serverless SQL warehouses.
- Para machine learning, o servir modelo é uma capacidade de servir modelo escalável, de tempo real e de nível empresarial, hospedada no plano de controle Databricks . O Unity AI Gateway é a solução da Databricks para governar e monitorar o acesso a modelos AI generativos suportados e seus respectivos endpoints de serviço.
- Bancos de dados operacionais:
  - Lakebase é um banco de dados de processamento de transações online (OLTP) baseado em Postgres e totalmente integrado à Databricks Data Intelligence Platform. Ele permite criar bancos de dados OLTP no Databricks e integrar cargas de trabalho OLTP com o Databricks.
  - Sistemas externos, como bancos de dados operacionais, podem ser utilizados para armazenar e entregar o produto final de dados às aplicações do usuário.
Colaboração :
- Os parceiros de negócios recebem acesso seguro aos dados de que precisam por meio do OpenSharing.
- Com base no OpenSharing, o Databricks Marketplace é um fórum aberto para troca de produtos de dados.
- As salas limpas são ambientes seguros e que protegem a privacidade, nos quais vários usuários podem trabalhar juntos em dados corporativos confidenciais sem acesso direto aos dados uns dos outros.
Análise
- As aplicações de negócios finais estão nesta raia. Os exemplos incluem clientes personalizados, como aplicativos de AI conectados ao Model Serving para inferência em tempo real ou aplicativos que acessam dados enviados do Databricks para um banco de dados operacional.
- Para os casos de uso do BI, os analistas normalmente usam as ferramentas doBI para acessar o data warehouse. Os desenvolvedores de SQL podem usar adicionalmente o Databricks SQL Editor (não mostrado no diagrama) para consultas e painéis.
- A Data Intelligence Platform também oferece painéis para criar visualizações de dados e compartilhar percepções.
Integrar
- A plataforma Databricks integra-se aos provedores de identidade padrão para gerenciamento de usuários e logon único (SSO).
- Serviços externos AI como OpenAI, LangGraph ou HuggingFace, podem ser usados diretamente na Plataforma de Inteligência Databricks .
- Os orquestradores externos podem usar a API REST abrangente ou conectores dedicados a ferramentas de orquestração externas, como o Apache Airflow.
- Unity Catalog é usado para toda a governança de dados e AI na Databricks Intelligence Platform e pode integrar outros bancos de dados à sua governança por meio da Lakehouse Federation.
  
  Além disso, o Unity Catalog pode ser integrado a outros catálogos empresariais. Entre em contato com o fornecedor do catálogo corporativo para obter detalhes.

Recursos comuns para todas as cargas de trabalho

Além disso, a plataforma Databricks vem com recursos de gerenciamento que dão suporte a todas as cargas de trabalho:

Governança de dados e IA

O sistema central de governança de dados e AI na Databricks Data Intelligence Platform é o Unity Catalog. O Unity Catalog oferece um único local para gerenciar políticas de acesso a dados que se aplicam a todos os workspaces e suporta todos os ativos criados ou usados na Databricks, como tabelas, volumes, recursos (repositório de recursos) e modelos (registro de modelo). O Unity Catalog também pode ser usado para capturar a linhagem de dados em tempo de execução em consultas executadas na Databricks.

O monitoramento de qualidade de dadosDatabricks permite que você monitore a qualidade dos dados de todas as tabelas da sua account. Ele detecta anomalias em todas as suas tabelas e fornece um perfil de dados completo para cada tabela.

Para fins de observabilidade, as tabelas do sistema são um armazenamento analítico hospedado no site Databricksdos dados operacionais do seu site account. As tabelas do sistema podem ser usadas para observação histórica em seu site account.
Mecanismo de inteligência de dados

A Databricks Data Intelligence Platform permite que toda a sua organização use dados e AI, combinando AI generativa com os benefícios de unificação da Databricks para entender a semântica exclusiva de seus dados. Consulte recursos de assistência de AI da Databricks.

Genie Code está disponível no Databricks Notebook, no editor SQL , no editor de arquivos e em outros locais como um assistente AI contextual para os usuários.
Automação & orquestração

O Lakeflow Jobs orquestra os pipelines de processamento de dados, Machine Learning e analítica na Databricks Data Intelligence Platform. Os Lakeflow pipelines permitem que você crie pipelines ETL confiáveis e de fácil manutenção com sintaxe declarativa. A plataforma também oferece suporte a CI/CD e MLOps.

Casos de uso de alto nível para a Data Intelligence Platform no AWS

ingestão integrada de aplicativos e bancos de dados do site SaaS com LakeFlow Connect

Ingestão com LFC em Databricks on AWS.

download: LakeFlow Connect arquitetura de referência para Databricks on AWS

O Databricks Lakeflow Connect oferece conectores integrados para ingestão de aplicativos empresariais e bancos de dados. O pipeline de ingestão resultante é governado pelo Unity Catalog e é alimentado por compute serverless e Lakeflow pipelines.

LakeFlow Connect utiliza leituras e gravações incrementais eficientes para tornar a ingestão de dados mais rápida, dimensionável e econômica, enquanto seus dados permanecem atualizados para consumo downstream.

Ingestão de lotes e ETL

lotes ETL arquitetura de referência em Databricks on AWS.

Download: Arquitetura de referência de ETL em lote para Databricks na AWS

As ferramentas de ingestão usam adaptadores específicos da fonte para ler dados da fonte e, em seguida, armazená-los no armazenamento na cloud de onde o Auto Loader pode lê-los ou chamar o Databricks diretamente (por exemplo, com ferramentas de ingestão de parceiros integradas à plataforma Databricks). Para carregar os dados, o mecanismo de ETL e processamento da Databricks realiza a execução das consultas via pipeline. Orquestre Jobs de tarefa única ou multitarefa usando Lakeflow Jobs e governe-os usando o Unity Catalog (controle de acesso, auditoria, linhagem e assim por diante). Para fornecer acesso a golden tables específicas para sistemas operacionais de baixa latência, exporte as tabelas para um banco de dados operacional, como um RDBMS ou um armazenamento de key-value no fim do pipeline de ETL.

transmissão e captura de dados de alterações (CDC) (CDC)

Spark transmissão estructurada architecture on Databricks on AWS.

Download: arquitetura de transmissão estruturada do Spark para Databricks on AWS

O mecanismo Databricks ETL Spark transmissão estruturada para leitura de filas de eventos, como Apache Kafka ou AWS Kinesis. As etapas posteriores seguem a abordagem do caso de uso lotes acima.

tempo real captura de dados de alterações (CDC) (CDC) normalmente armazena os eventos extraídos em uma fila de eventos. A partir daí, o caso de uso segue o caso de uso de transmissão.

Se CDC for feito em lotes, com os registros extraídos armazenados primeiro no armazenamento cloud , Databricks Auto Loader poderá lê-los, e o caso de uso seguirá ETL de lotes.

Aprendizado de máquina e AI (tradicional)

Aprendizado de máquina e AI arquitetura de referência para Databricks on AWS.

Download: Arquitetura de referência de aprendizado de máquina e IA para Databricks na AWS

Para machine learning, a Plataforma de Inteligência de Dados Databricks fornece aprendizado de máquina de última geração e biblioteca de aprendizado profundo. Oferece funcionalidades como Feature Store e Model Registry (ambos integrados ao Unity Catalog), recursos de baixo código com AutoML e integração MLflow ao ciclo de vida da ciência de dados.

Unity Catalog rege toda a ciência de dados ativos relacionados (tabelas, recursos e modelos), e data scientists podem usar LakeFlow Jobs para orquestrar seu trabalho.

Para implantar modelos de forma escalonável e de nível empresarial, use os MLOps recursos para publicar os modelos no servindo modelo.

AI Aplicativos de agente (Gen ) AI

Gen AI arquitetura de referência de aplicativos para Databricks on AWS.

download: Gen AI arquitetura de referência de aplicativos para Databricks on AWS

Para implantar modelos de maneira escalável e de nível empresarial, use os recursos de MLOps para publicar os modelos no serviço de modelos.

BI e analítica SQL

BI e SQL arquitetura de referência analítica para Databricks on AWS.

Download: arquitetura de referência de análise de BI e SQL para Databricks on AWS

Para os casos de uso do BI, o analista de negócios pode usar dashboards, o editorDatabricks SQL ou ferramentasBI como Tableau ou Amazon QuickSight. Em todos os casos, o mecanismo é Databricks SQL (serverless ou nãoserverless), e Unity Catalog fornece descobrimento de dados, exploração, linhagem e controle de acesso.

Aplicativos de negócios

Aplicativos de negócios para Databricks on AWS.

Baixe: Aplicativos de negócios para Databricks on AWS

Databricks Apps permite que os desenvolvedores criem e implantem aplicativos de dados e AI seguros diretamente na plataforma Databricks, o que elimina a necessidade de infraestrutura separada. Os aplicativos são hospedados na plataforma serverless da Databricks e se integram aos key serviços da plataforma. Use Lakebase, se o aplicativo precisar de dados OLTP sincronizados do Databricks.

lakehouse federation

arquitetura de referência da lakehouse federation para Databricks on AWS.

Download: arquitetura de referência da Lakehouse Federation para Databricks on AWS

A lakehouse Federation permite que bancos de dados externos SQL (como MySQL, Postgres ou Redshift) sejam integrados ao Databricks.

Todas as cargas de trabalho (IA, DWH e BI) podem se beneficiar disso sem a necessidade de ETL dos dados no armazenamento de objetos primeiro. O catálogo de fontes externas é associado no catálogo do Unity e o controle de acesso refinado pode ser aplicado ao acesso por meio da plataforma Databricks.

Federação de catálogos

Arquitetura de referência da federação de catálogos para Databricks on AWS.

download: Arquitetura de referência da federação de catálogos para Databricks on AWS

A federação de catálogos permite que os Hive Metastores externos (como MySQL, Postgres ou Redshift) ou o Amazon Glue sejam integrados ao Databricks.

Todas as cargas de trabalho (AI, DWH e BI) podem se beneficiar disso sem a necessidade de ETL os dados no armazenamento de objetos primeiro. O catálogo de fontes externas é adicionado ao Unity Catalog, onde o controle de acesso refinado é aplicado por meio da plataforma Databricks.

Compartilhe dados com ferramentas de terceiros

Arquitetura de referência de compartilhamento de dados corporativos para Databricks on AWS.

download: Compartilhe dados com ferramentas de terceiros - arquitetura de referência para Databricks on AWS

O compartilhamento de dados de nível empresarial com terceiros é fornecido por OpenSharing. Permite acesso direto aos dados no armazenamento de objetos protegido pelo Unity Catalog. Essa capacidade também é usada no Databricks Marketplace, um fórum aberto para troca de produtos de dados.

Consumir dados compartilhados de Databricks

Consumir dados compartilhados de Databricks para Databricks on AWS.

Faça o download: Consumir dados compartilhados da arquitetura de referência do Databricks para o Databricks on AWS

O protocolo de compartilhamento OpenSharing Databricks-to-Databricks permite que os usuários compartilhem dados com segurança com qualquer usuário Databricks, independentemente da conta ou host da cloud, desde que esse usuário tenha acesso a um workspace habilitado para Unity Catalog.

Organização das arquiteturas de referência​

Recursos comuns para todas as cargas de trabalho​

Casos de uso de alto nível para a Data Intelligence Platform no AWS​

ingestão integrada de aplicativos e bancos de dados do site SaaS com LakeFlow Connect​

Ingestão de lotes e ETL​

transmissão e captura de dados de alterações (CDC) (CDC)​

Aprendizado de máquina e AI (tradicional)​

AI Aplicativos de agente (Gen ) AI​

BI e analítica SQL​

Aplicativos de negócios​

lakehouse federation​

Federação de catálogos​

Compartilhe dados com ferramentas de terceiros​

Consumir dados compartilhados de Databricks​