downloads de arquiteturas de referência da lakehouse

Este artigo aborda a orientação arquitetônica para o lakehouse em termos de fonte de dados, ingestão, transformações, consulta e processamento, serviço, análise/saída e armazenamento.

Cada arquitetura de referência tem um PDF para download em formato 11 x 17 (A3).

Organização das arquiteturas de referência

A arquitetura de referência está estruturada de acordo com as raias de natação Source, Ingest, Transform, Query and Process, Serve, Análise e Storage:

  • Origem

    A arquitetura faz distinção entre dados semiestruturados e não estruturados (sensores e IoT, mídia, arquivos/logs) e dados estruturados (RDBMS, aplicativos de negócios). As fontes SQL (RDBMS) também podem ser integradas ao lakehouse e ao Unity Catalog sem ETL por meio da federação de lakehouse. Além disso, os dados podem ser carregados de outros provedores de nuvem.

  • Ingerir

    Os dados podem ser ingeridos no lakehouse por meio de lotes ou transmissão:

  • Armazenar

    Normalmente, os dados são armazenados no sistema de armazenamento em nuvem, onde o pipeline de ETL usa a arquitetura de medalhão para armazenar dados de forma organizada como arquivos/tabelas Delta.

  • Transformar, consultar e processar

    O Databricks lakehouse usa seus mecanismos Apache Spark e Photon para todas as transformações e consultas.

    Devido à sua simplicidade, a estrutura declarativa DLT(Delta Live Tables) é uma boa opção para criar um pipeline de processamento de dados confiável, sustentável e testável.

    Com o Apache Spark e o Photon, a Databricks Data Intelligence Platform oferece suporte a ambos os tipos de cargas de trabalho: Consultas SQL via armazém SQL e cargas de trabalho SQL, Python e Scala via workspace clusters.

    Para a ciência de dados (modelagem de ML e IA geral), a plataforma de IA e aprendizado de máquina da Databricks oferece tempos de execução de ML especializados para AutoML e para codificação de trabalhos de ML. Todos os fluxos de trabalho de ciência de dados e MLOps têm o melhor suporte do MLflow.

  • Servir

    Para casos de uso de DWH e BI, a Databricks lakehouse oferece o Databricks SQL, o data warehouse alimentado pelo SQL warehouse e o SQL warehouse sem servidor.

    Para machine learning, o servindo modelo é um recurso de servindo modelo dimensionável, em tempo real e de nível empresarial hospedado no plano de controle do Databricks.

    Bancos de dados operacionais: Sistemas externos, como bancos de dados operacionais, podem ser usados para armazenar e fornecer o produto final de dados aos aplicativos do usuário.

    Colaboração: Os parceiros de negócios obtêm acesso seguro aos dados de que precisam por meio do Delta Sharing. Com base no Delta Sharing, o Databricks Marketplace é um fórum aberto para a troca de produtos de dados.

  • Análise

    Os aplicativos de negócios finais estão nessa faixa de natação. Os exemplos incluem clientes personalizados, como aplicativos de IA conectados ao Databricks servindo modelo para inferência em tempo real ou aplicativos que acessam dados enviados do lakehouse para um banco de dados operacional.

    Para casos de uso de BI, os analistas normalmente usam ferramentas de BI para acessar o data warehouse. Os desenvolvedores de SQL podem usar adicionalmente o Databricks SQL Editor (não mostrado no diagrama) para consultas e painéis.

    A Data Intelligence Platform também oferece painéis do Lakeview para criar visualizações de dados e compartilhar percepções.

Recursos para suas cargas de trabalho

Além disso, o Databricks lakehouse vem com recursos de gerenciamento que dão suporte a todas as cargas de trabalho:

  • Governança de dados e IA

    O sistema central de governança de dados e IA na Databricks Data Intelligence Platform é o Unity Catalog. O Unity Catalog fornece um único local para gerenciar políticas de acesso a dados que se aplicam a todo o espaço de trabalho e oferece suporte a todos os ativos criados ou usados no lakehouse, como tabelas, volumes, recursos(repositório de recursos) e modelos(registro de modelo). O Unity Catalog também pode ser usado para capturar a linhagem de dados em tempo de execução nas consultas executadas no Databricks.

    O monitoramento do Databricks Lakehouse permite que o senhor monitore a qualidade dos dados em todas as tabelas do seu site account. Ele também pode rastrear o desempenho do endpoint do modelo do aprendizado de máquina e do modelo de serviço.

    Para o Observability, as tabelas do sistema são um armazenamento analítico hospedado pelo Databricks dos dados operacionais do seu site account. As tabelas do sistema podem ser usadas para observação histórica em seu site account.

  • Mecanismo de inteligência de dados

    A Databricks Data Intelligence Platform permite que toda a sua organização use dados e IA. Ele é alimentado pelo DatabricksIQ e combina IA generativa com os benefícios de unificação de um lakehouse para entender a semântica exclusiva de seus dados.

    O Databricks Assistant está disponível no Databricks Notebook, no editor SQL e no editor de arquivos como um assistente de IA com reconhecimento de contexto para desenvolvedores.

  • Orquestração

    Databricks Workflows orquestrar o processamento de dados, machine learning, e o pipeline analítico na Plataforma de Inteligência de Dados da Databricks. O fluxo de trabalho tem um serviço de orquestração totalmente gerenciado e integrado à plataforma Databricks, incluindo o Databricks Jobs para execução de código não interativo em seu Databricks workspace e o Delta Live Tables para criar um pipeline ETL confiável e sustentável.

A arquitetura de referência da Data Intelligence Platform no AWS

A arquitetura de referência do AWS é derivada da arquitetura de referência genérica, adicionando serviços específicos do AWS para os elementos Source, Ingest, Serve, analysis e Storage.

Arquitetura de referência para o Databricks lakehouse no AWS

downloads: Arquitetura de referência para o Databricks lakehouse na AWS

A arquitetura de referência do AWS mostra os seguintes serviços específicos do AWS para Ingest, Storage, Serve e análise/Output:

  • Amazon Redshift como fonte para lakehouse Federation

  • Amazon AppFlow e AWS Glue para ingestão de lotes

  • AWS IoT Core, Amazon Kinesis e AWS DMS para ingestão de transmissão

  • Amazon S3 como armazenamento de objetos

  • Amazon RDS e Amazon DynamoDB como bancos de dados operacionais

  • Amazon QuickSight como ferramenta de BI

  • Amazon Bedrock como uma API unificada para modelos de fundação da principal startup de IA e da Amazon

Observação

  • Este view da arquitetura de referência se concentra apenas no serviço AWS e no Databricks lakehouse. O lakehouse na Databricks é uma plataforma aberta que se integra a um grande ecossistema de ferramentas de parceiros.

  • Os serviços de provedores de nuvens apresentados não são exaustivos. Elas foram selecionadas para ilustrar o conceito.

Caso de uso: lotes ETL

lotes Arquitetura de referência ETL para Databricks on AWS

downloads: lotes ETL reference architecture for Databricks on AWS

As ferramentas de ingestão usam adaptadores específicos da fonte para ler os dados da fonte e, em seguida, armazená-los no armazenamento em nuvem, de onde o Auto Loader pode lê-los, ou chamar o Databricks diretamente (por exemplo, com ferramentas de ingestão de parceiros integradas ao Databricks lakehouse). Para carregar os dados, o ETL da Databricks e o mecanismo de processamento - via DLT - executam as consultas. O trabalho único ou multitarefa pode ser orquestrado pelo fluxo de trabalho do Databricks e governado pelo Unity Catalog (controle de acesso, auditoria, linhagem e assim por diante). Se os sistemas operacionais de baixa latência exigirem acesso a golden tables específicas, elas poderão ser exportadas para um banco de dados operacional, como um RDBMS ou um armazenamento de valores key, no final do pipeline de ETL.

Caso de uso: transmissão e captura de dados de alterações (CDC) (CDC)

Arquitetura de transmissão estruturada do Spark no Databricks on AWS

downloads: Spark transmissão estruturada arquitetura para Databricks on AWS

O mecanismo de ETL da Databricks Spark transmissão estruturada para leitura de filas de eventos, como Apache Kafka ou AWS Kinesis. Os passos downstream seguem a abordagem do caso de uso lotes acima.

A captura de dados de alterações (CDC) em tempo real normalmente usa uma fila de eventos para armazenar os eventos extraídos. A partir daí, o caso de uso segue o caso de uso de transmissão.

Se o CDC for feito em lotes, onde os registros extraídos são armazenados primeiro no armazenamento em nuvem, o Databricks Autoloader poderá lê-los e o caso de uso seguirá o lotes ETL.

Caso de uso: Aprendizado de máquina e IA

Arquitetura de referência de aprendizado de máquina e IA para Databricks on AWS

downloads: Arquitetura de referência de aprendizado de máquina e IA para Databricks on AWS

Para machine learning, a Plataforma de Inteligência de Dados da Databricks fornece o Mosaic AI, que vem com máquinas de última geração e aprendizagem profunda na biblioteca. Ele oferece recursos como repositório de recursos e registro de modelo (ambos integrados ao Unity Catalog), recurso low-code com AutoML e integração do MLflow ao ciclo de vida da ciência de dados.

Todos os ativos relacionados à ciência de dados (tabelas, recursos e modelos) são governados pelo Unity Catalog e os cientistas de dados podem usar o Databricks Workflows para orquestrar seu trabalho.

Para implantar modelos de forma escalonável e de nível empresarial, use os recursos do MLOps para publicar os modelos no servindo modelo.

Caso de uso: Geração Aumentada de Recuperação (Gen IA)

Arquitetura de referência do Gen IA RAG para Databricks on AWS

downloads: Arquitetura de referência do Gen IA RAG para Databricks on AWS

Para casos de uso de IA generativa, o Mosaic AI vem com biblioteca de última geração e recursos específicos de IA generativa, desde a engenharia imediata até o ajuste fino dos modelos existentes e o pré-treinamento do zero. A arquitetura acima mostra um exemplo de como a pesquisa vetorial pode ser integrada para criar um aplicativo de IA RAG (retrieval augmented generation).

Para implantar modelos de forma escalonável e de nível empresarial, use os recursos do MLOps para publicar os modelos no servindo modelo.

Caso de uso: BI e SQL analítico

Arquitetura de referência de BI e SQL analítica para Databricks on AWS

downloads: Arquitetura de referência de BI e SQL analítica para Databricks on AWS

Para casos de uso de BI, o analista de negócios pode usar o Databricks Lakeview, o editor Databricks SQL ou ferramentas específicas de BI, como o Tableau ou o Amazon QuickSight. Em todos os casos, o mecanismo é o Databricks SQL (serverless ou nãoserverless) e o descobrimento de dados, a exploração, a linhagem e o controle de acesso são fornecidos pelo Unity Catalog.

Caso de uso: Federação de lagos

lakehouse arquitetura de referência de federação para Databricks on AWS

downloads: lakehouse arquitetura de referência da federação para Databricks on AWS

lakehouse A federação permite que bancos de dados SQL externos (como MySQL, Postgres ou Redshift) sejam integrados ao Databricks.

Todas as cargas de trabalho (IA, DWH e BI) podem se beneficiar disso sem a necessidade de ETL dos dados no armazenamento de objetos primeiro. O catálogo de fontes externas é mapeado no catálogo do Unity e o controle de acesso refinado pode ser aplicado ao acesso por meio da plataforma Databricks.

Caso de uso: Compartilhamento de dados corporativos

Arquitetura de referência de compartilhamento de dados corporativos para Databricks on AWS

downloads: Arquitetura de referência de compartilhamento de dados empresariais para Databricks on AWS

O compartilhamento de dados de nível empresarial é fornecido pelo Delta Sharing. Ele fornece acesso direto aos dados no armazenamento de objetos protegido pelo Unity Catalog, e o Databricks Marketplace é um fórum aberto para troca de produtos de dados.