Arquiteturas de referência do Databricks (download)

As arquiteturas de referência do Databricks fornecem orientação arquitetônica cobrindo fontes de dados, ingestão, transformação, consulta e processamento, fornecimento, análise e armazenamento.

Cada arquitetura de referência tem um PDF para download em formato 11 x 17 (A3).

Embora o Databricks seja uma plataforma aberta que se integra a um grande ecossistema de ferramentas de parceiros, as arquiteturas de referência se concentram apenas nos serviços do Google Cloud e na plataforma Databricks. Os serviços do provedor de cloud apresentados são selecionados para ilustrar os conceitos e não são exaustivos.

Arquitetura de referência para a plataforma Databricks no Google Cloud.

Download: arquitetura de referência para a plataforma Databricks no Google Cloud

A arquitetura de referência do GCP mostra os seguintes serviços específicos do GCPpara ingestão, armazenamento, fornecimento e análise:

BigQuery como sistema de origem para Lakehouse Federation
Pub/Sub e Datastream para ingestão de streaming
Fusão de dados na nuvem para ingestão de lotes
Armazenamento em nuvem como o armazenamento de objetos para dados e AI ativo
Cloud Big Table, Cloud SQL e Data Store como bancos de dados operacionais
O Looker como ferramenta de BI
Vertex AI pode ser usado pelo servindo modelo para chamar LLMs externos

Organização das arquiteturas de referência

A arquitetura de referência está estruturada de acordo com as raias de natação Source , Ingest , Transform , Query/Process , Serve , análise e Storage :

Origem

Há três maneiras de integrar dados externos à Plataforma de Inteligência de Dados:
- ETL: A plataforma permite a integração com sistemas que fornecem dados semiestruturados e não estruturados (como sensores, dispositivos IoT, mídia, arquivos e logs), bem como dados estruturados de bancos de dados relacionais ou aplicativos comerciais.
- Lakehouse Federation: Fontes SQL, como bancos de dados relacionais, podem ser integradas ao Databricks e ao Unity Catalog sem ETL. Nesse caso, os dados do sistema de origem são governados pelo Unity Catalog, e as consultas são enviadas para o sistema de origem.
- Federação de catálogos: os catálogos do Hive metastore também podem ser integrados ao Unity Catalog por meio da federação de catálogos, permitindo que o Unity Catalog controle as tabelas armazenadas no Hive metastore.
Ingerir

Ingerir dados no Databricks via lotes ou transmissão:
- Databricks LakeFlow Connect oferece conectores integrados para ingestão de dados de aplicativos e bancos de dados corporativos. O pipeline de ingestão resultante é gerenciado pelo Unity Catalog e utiliza compute e pipeline serverless .
- Os arquivos entregues ao armazenamento em nuvem podem ser carregados diretamente usando o Databricks Auto Loader.
- Para a ingestão em lotes de dados de aplicativos empresariais no Delta Lake, a plataforma Databricks conta com ferramentas de ingestão de parceiros com adaptadores específicos para esses sistemas de registro.
- Os eventos de transmissão podem ser ingeridos diretamente dos sistemas de transmissão de eventos, como Kafka, usando Databricks transmissão estructurada. As fontes de transmissão podem ser sensores, IoT, ou processos de captura de dados de alterações (CDC).
Armazenar
- Em geral, os dados são armazenados em um sistema de armazenamento em nuvem em que o pipeline ETL usa a arquitetura de medalhão para armazenar dados de forma organizada como arquivos/tabelasDelta ou tabelasApache Iceberg.
Transformação e consulta//processo
- A plataforma Databricks usa seus mecanismos Apache Spark e Photon para todas as transformações e consultas.
- Pipeline é uma estrutura declarativa para simplificar e otimizar pipelines de processamento de dados confiáveis, de fácil manutenção e testáveis.
- Com base em Apache Spark e Photon, a Databricks Data Intelligence Platform oferece suporte a ambos os tipos de cargas de trabalho: SQL consultas via SQL warehouse e SQL, Python e Scala cargas de trabalho via workspace clustering.
- Para ciência de dados (ML Modeling and Gen),AI a Databricks AI plataforma and Machine Learning fornece tempos de execução especializados ML para e para AutoML codificação ML Job. Toda a ciência de dados e oMLOps fluxo de trabalho têm o melhor suporte do MLflow.
Disponibilizando
- Para casos de uso de data warehousing (DWH) e BI, a plataforma Databricks oferece Databricks SQL, o data warehouse alimentado por SQL warehouse, e serverless SQL warehouses.
- Para machine learning, o servir modelo é uma capacidade de servir modelo escalável, de tempo real e de nível empresarial, hospedada no plano de controle Databricks . O Unity AI Gateway é a solução da Databricks para governar e monitorar o acesso a modelos AI generativos suportados e seus respectivos endpoints de serviço.
- Bancos de dados operacionais: Sistemas externos, como bancos de dados operacionais, podem ser usados para armazenar e fornecer o produto final de dados aos aplicativos do usuário.
Colaboração :
- Os parceiros de negócios recebem acesso seguro aos dados de que precisam por meio do OpenSharing.
- Com base no OpenSharing, o Databricks Marketplace é um fórum aberto para troca de produtos de dados.
- As salas limpas são ambientes seguros e que protegem a privacidade, nos quais vários usuários podem trabalhar juntos em dados corporativos confidenciais sem acesso direto aos dados uns dos outros.
Análise
- As aplicações de negócios finais estão nesta raia. Os exemplos incluem clientes personalizados, como aplicativos de AI conectados ao Model Serving para inferência em tempo real ou aplicativos que acessam dados enviados do Databricks para um banco de dados operacional.
- Para os casos de uso do BI, os analistas normalmente usam as ferramentas doBI para acessar o data warehouse. Os desenvolvedores de SQL podem usar adicionalmente o Databricks SQL Editor (não mostrado no diagrama) para consultas e painéis.
- A Data Intelligence Platform também oferece painéis para criar visualizações de dados e compartilhar percepções.
Integrar
- A plataforma Databricks integra-se aos provedores de identidade padrão para gerenciamento de usuários e logon único (SSO).
- Serviços externos AI como OpenAI, LangGraph ou HuggingFace, podem ser usados diretamente na Plataforma de Inteligência Databricks .
- Os orquestradores externos podem usar a API REST abrangente ou conectores dedicados a ferramentas de orquestração externas, como o Apache Airflow.
- Unity Catalog é usado para toda a governança de dados e AI na Databricks Intelligence Platform e pode integrar outros bancos de dados à sua governança por meio da Lakehouse Federation.
  
  Além disso, o Unity Catalog pode ser integrado a outros catálogos empresariais. Entre em contato com o fornecedor do catálogo corporativo para obter detalhes.

Recursos comuns para todas as cargas de trabalho

Além disso, a plataforma Databricks vem com recursos de gerenciamento que dão suporte a todas as cargas de trabalho:

Governança de dados e IA

O sistema central de governança de dados e AI na Databricks Data Intelligence Platform é o Unity Catalog. O Unity Catalog oferece um único local para gerenciar políticas de acesso a dados que se aplicam a todos os workspaces e suporta todos os ativos criados ou usados na Databricks, como tabelas, volumes, recursos (repositório de recursos) e modelos (registro de modelo). O Unity Catalog também pode ser usado para capturar a linhagem de dados em tempo de execução em consultas executadas na Databricks.

O monitoramento de qualidade de dadosDatabricks permite que você monitore a qualidade dos dados de todas as tabelas da sua account. Ele detecta anomalias em todas as suas tabelas e fornece um perfil de dados completo para cada tabela.

Para fins de observabilidade, as tabelas do sistema são um armazenamento analítico hospedado no site Databricksdos dados operacionais do seu site account. As tabelas do sistema podem ser usadas para observação histórica em seu site account.
Mecanismo de inteligência de dados

A Databricks Data Intelligence Platform permite que toda a sua organização use dados e AI, combinando AI generativa com os benefícios de unificação da Databricks para entender a semântica exclusiva de seus dados. Consulte recursos de assistência de AI da Databricks.

Genie Code está disponível no Databricks Notebook, no editor SQL , no editor de arquivos e em outros locais como um assistente AI contextual para os usuários.
Automação & orquestração

O Lakeflow Jobs orquestra os pipelines de processamento de dados, Machine Learning e analítica na Databricks Data Intelligence Platform. Os Lakeflow pipelines permitem que você crie pipelines ETL confiáveis e de fácil manutenção com sintaxe declarativa. A plataforma também oferece suporte a CI/CD e MLOps.

Casos de uso de alto nível da plataforma de inteligência de dados no Google Cloud

ingestão integrada de aplicativos e bancos de dados do site SaaS com LakeFlow Connect

Ingestão com LFC em Databricks no GCP.

download: LakeFlow Connect arquitetura de referência para Databricks em GCP.

O Databricks Lakeflow Connect oferece conectores integrados para ingestão de aplicativos empresariais e bancos de dados. O pipeline de ingestão resultante é governado pelo Unity Catalog e é alimentado por compute serverless e Lakeflow pipelines.

LakeFlow Connect utiliza leituras e gravações incrementais eficientes para tornar a ingestão de dados mais rápida, dimensionável e econômica, enquanto seus dados permanecem atualizados para consumo downstream.

Ingestão de lotes e ETL

Arquitetura de referência para lotes ETL em Databricks em GCP.

Download: arquitetura de referência de ETL em lotes para o Databricks on Google Cloud

As ferramentas de ingestão usam adaptadores específicos da fonte para ler dados da fonte e, em seguida, armazená-los no armazenamento na cloud de onde o Auto Loader pode lê-los ou chamar o Databricks diretamente (por exemplo, com ferramentas de ingestão de parceiros integradas à plataforma Databricks). Para carregar os dados, o mecanismo de ETL e processamento da Databricks realiza a execução das consultas via pipeline. Orquestre Jobs de tarefa única ou multitarefa usando Lakeflow Jobs e governe-os usando o Unity Catalog (controle de acesso, auditoria, linhagem e assim por diante). Para fornecer acesso a golden tables específicas para sistemas operacionais de baixa latência, exporte as tabelas para um banco de dados operacional, como um RDBMS ou um armazenamento de key-value no fim do pipeline de ETL.

transmissão e captura de dados de alterações (CDC) (CDC)

Spark transmissão estructurada architecture for Databricks on Google Cloud.

Download: arquitetura de streaming estruturado do Spark para Databricks on Google Cloud

O mecanismo Databricks ETL usa a transmissãoSpark estruturada para ler as filas de eventos, como Apache Kafka ou Pub/Sub. As etapas posteriores seguem a abordagem do caso de uso lotes acima.

tempo real captura de dados de alterações (CDC) (CDC) normalmente armazena os eventos extraídos em uma fila de eventos. A partir daí, o caso de uso segue o caso de uso de transmissão.

Se CDC for feito em lotes, com os registros extraídos armazenados primeiro no armazenamento cloud , Databricks Auto Loader poderá lê-los, e o caso de uso seguirá ETL de lotes.

Aprendizado de máquina e AI (tradicional)

Aprendizado de máquina e AI arquitetura de referência para Databricks on Google Cloud.

Download: Arquitetura de referência de aprendizado de máquina e IA para o Databricks on Google Cloud

Para machine learning, a Plataforma de Inteligência de Dados Databricks fornece aprendizado de máquina de última geração e biblioteca de aprendizado profundo. Oferece funcionalidades como Feature Store e Model Registry (ambos integrados ao Unity Catalog), recursos de baixo código com AutoML e integração MLflow ao ciclo de vida da ciência de dados.

Unity Catalog rege toda a ciência de dados ativos relacionados (tabelas, recursos e modelos), e data scientists podem usar LakeFlow Jobs para orquestrar seu trabalho.

Para implantar modelos de forma escalonável e de nível empresarial, use os MLOps recursos para publicar os modelos no servindo modelo.

AI Aplicativos de agente (Gen ) AI

Gen AI arquitetura de referência de aplicativos para Databricks on Google Cloud.

download: Gen AI arquitetura de referência de aplicativos para Databricks on Google Cloud

Para casos de uso de IA generativa, o Databricks vem com bibliotecas de última geração e recursos específicos de IA generativa, desde a engenharia de prompts até a criação de agentes de AI e o ajuste fino de modelos existentes. A arquitetura acima mostra um exemplo de como integrar AI Search em um agente de Gen AI.

Para implantar modelos de maneira escalável e de nível empresarial, use os recursos de MLOps para publicar os modelos no serviço de modelos.

BI e analítica SQL

BI e SQL arquitetura de referência analítica para Databricks on Google Cloud.

Download: Arquitetura de referência de análise de BI e SQL para Databricks on Google Cloud

Para casos de uso de BI, o analista de negócios pode utilizar painéis, o editorDatabricks SQL ou ferramentasBI, como Tableau ou Looker. Databricks SQLserverless Em todos os casos, o mecanismo é um mecanismo de pesquisa de dados (serverless ou não ), e Unity Catalog fornece a descoberta de dados, a exploração e o controle de acesso.

Aplicativos de negócios

Aplicativos de negócios para Databricks Databricks on Google Cloud.

Baixe: Aplicativos de negócios para Databricks Databricks on Google Cloud

Databricks Os aplicativos permitem que os desenvolvedores criem e implementem aplicativos seguros de dados e e AI es diretamente na plataforma Databricks, eliminando a necessidade de infraestrutura separada. Os aplicativos são hospedados na plataforma Databricks serverless e integram-se à plataforma key serviço.

lakehouse federation

arquitetura de referência da lakehouse federation para Databricks on Google Cloud.

Download: Arquitetura de referência da federação da lakehouse para Databricks on Google Cloud

A lakehouse Federation permite que bancos de dados SQL externos (como MySQL ou Postgres) sejam integrados ao Databricks.

Todas as cargas de trabalho (IA, DWH e BI) podem se beneficiar disso sem a necessidade de ETL dos dados no armazenamento de objetos primeiro. O catálogo de fontes externas é associado no catálogo do Unity e o controle de acesso refinado pode ser aplicado ao acesso por meio da plataforma Databricks.

Federação de catálogos

Arquitetura de referência da federação de catálogos para Databricks on Google Cloud.

download: Arquitetura de referência da federação de catálogos para Databricks on Google Cloud

A federação de catálogos permite que os Hive Metastores externos (como MySQL ou Postgres) sejam integrados ao Databricks.

Todas as cargas de trabalho (AI, DWH e BI) podem se beneficiar disso sem a necessidade de ETL os dados no armazenamento de objetos primeiro. O catálogo de fontes externas é adicionado ao Unity Catalog, onde o controle de acesso refinado é aplicado por meio da plataforma Databricks.

Compartilhe dados com ferramentas de terceiros

Arquitetura de referência de compartilhamento de dados corporativos para Databricks no GCP.

download: Compartilhe dados com ferramentas de terceiros - arquitetura de referência para Databricks on Google Cloud

O compartilhamento de dados de nível empresarial com terceiros é fornecido por OpenSharing. Permite acesso direto aos dados no armazenamento de objetos protegido pelo Unity Catalog. Essa capacidade também é usada no Databricks Marketplace, um fórum aberto para troca de produtos de dados.

Consumir dados compartilhados de Databricks

Consumir dados compartilhados do Databricks para o Databricks no GCP.

download: Consuma dados compartilhados da arquitetura de referência Databricks para Databricks on Google Cloud

O protocolo de compartilhamento OpenSharing Databricks-to-Databricks permite que os usuários compartilhem dados com segurança com qualquer usuário Databricks, independentemente da conta ou host da cloud, desde que esse usuário tenha acesso a um workspace habilitado para Unity Catalog.

Organização das arquiteturas de referência​

Recursos comuns para todas as cargas de trabalho​

Casos de uso de alto nível da plataforma de inteligência de dados no Google Cloud​

ingestão integrada de aplicativos e bancos de dados do site SaaS com LakeFlow Connect​

Ingestão de lotes e ETL​

transmissão e captura de dados de alterações (CDC) (CDC)​

Aprendizado de máquina e AI (tradicional)​

AI Aplicativos de agente (Gen ) AI​

BI e analítica SQL​

Aplicativos de negócios​

lakehouse federation​

Federação de catálogos​

Compartilhe dados com ferramentas de terceiros​

Consumir dados compartilhados de Databricks​