Pular para o conteúdo principal

arquiteturas de referência da lakehouse (download)

Este artigo aborda a orientação arquitetônica para o site lakehouse em termos de fonte de dados, ingestão, transformações, consulta e processamento, fornecimento, análise e armazenamento.

Cada arquitetura de referência tem um PDF para download em formato 11 x 17 (A3).

Enquanto o lakehouse no Databricks é uma plataforma aberta que se integra a um grande ecossistema de ferramentas de parceiros, as arquiteturas de referência se concentram apenas no AWS serviço e no Databricks lakehouse. Os serviços de provedores de nuvem mostrados são selecionados para ilustrar os conceitos e não são exaustivos.

Arquitetura de referência para o Databricks lakehouse no AWS.

Download: Arquitetura de referência para o lakehouse do Databricks na AWS

A arquitetura de referência do AWS mostra os seguintes serviços específicos do AWSpara ingestão, armazenamento, fornecimento e análise:

  • Amazon Redshift como fonte para Lakehouse Federation
  • Amazon AppFlow e AWS Glue para ingestão em lote
  • AWS IoT Core, Amazon Kinesis e AWS DMS para ingestão de streaming
  • Amazon S3 como o armazenamento de objetos para dados e AI ativo
  • Amazon RDS e Amazon DynamoDB como bancos de dados operacionais
  • Amazon QuickSight como ferramenta de BI
  • Amazon Bedrock é usado pelo servindo modelo para chamar LLMs externos a partir da inicialização do AI principal e Amazon

Organização das arquiteturas de referência

A arquitetura de referência está estruturada de acordo com as raias de natação Source , Ingest , Transform , Query/Process , Serve , análise e Storage :

  • Origem

    Há três maneiras de integrar dados externos à Plataforma de Inteligência de Dados:

    • ETL: A plataforma permite a integração com sistemas que fornecem dados semiestruturados e não estruturados (como sensores, dispositivos IoT, mídia, arquivos e logs), bem como dados estruturados de bancos de dados relacionais ou aplicativos comerciais.

    • lakehouse Federation: SQL fontes, como bancos de dados relacionais, podem ser integradas ao lakehouse e Unity Catalog sem ETL. Nesse caso, os dados do sistema de origem são controlados pelo Unity Catalog, e as consultas são enviadas para o sistema de origem.

    • Federação de catálogos: Os catálogos externos Hive metastore ou AWS Glue também podem ser integrados a Unity Catalog por meio da federação de catálogos, permitindo que Unity Catalog controle as tabelas armazenadas em Hive metastore ou AWS Glue.

  • Ingerir

    Ingerir dados no site lakehouse por meio de lotes ou transmissão:

  • Armazenar

  • Transformação e consulta//processo

    • O Databricks lakehouse usa seus mecanismos Apache Spark e Photon para todas as transformações e consultas.

    • DLT é uma estrutura declarativa para simplificar e otimizar um pipeline de processamento de dados confiável, sustentável e testável.

    • Com base em Apache Spark e Photon, a Databricks Data Intelligence Platform oferece suporte a ambos os tipos de cargas de trabalho: SQL consultas via SQL warehouse e SQL, Python e Scala cargas de trabalho via workspace clustering.

    • Para ciência de dados (ML Modeling and Gen),AI a Databricks AI plataforma and Machine Learning fornece tempos de execução especializados ML para e para AutoML codificação ML Job. Toda a ciência de dados e oMLOps fluxo de trabalho têm o melhor suporte do MLflow.

  • Disponibilizando

    Para os casos de uso data warehousing (DWH) e BI, o Databricks lakehouse fornece Databricks SQLo data warehouse powered by SQL warehouse, e o serverless SQL warehouse.

    • Para aprendizado de máquina, Mosaic AI Model Serving é um recurso de modelo de serviço escalável, de tempo real e de nível empresarial hospedado no plano de controle Databricks. Mosaic AI Gateway é Databricks soluções para governar e monitorar o acesso a modelos generativos AI suportados e seu endpoint de modelo de serviço associado.

    • Bancos de dados operacionais: Sistemas externos, como bancos de dados operacionais, podem ser usados para armazenar e fornecer o produto final de dados aos aplicativos do usuário.

    • Colaboração: Os parceiros de negócios obtêm acesso seguro aos dados de que precisam por meio do Delta Sharing. Com base em Delta Sharing, o Databricks Marketplace é um fórum aberto para troca de dados de produtos.

    • As salas limpas são ambientes seguros e que protegem a privacidade, nos quais vários usuários podem trabalhar juntos em dados corporativos confidenciais sem acesso direto aos dados uns dos outros.

  • Análise

    • As aplicações comerciais finais estão nesta pista de natação. Os exemplos incluem clientes personalizados, como os aplicativos AI conectados ao Mosaic AI Model Serving para inferência do tempo real ou aplicativos que acessam dados enviados do site lakehouse para um banco de dados operacional.

    • Para os casos de uso do BI, os analistas normalmente usam as ferramentas doBI para acessar o data warehouse. Os desenvolvedores de SQL podem usar adicionalmente o Databricks SQL Editor (não mostrado no diagrama) para consultas e painéis.

    • A Data Intelligence Platform também oferece painéis para criar visualizações de dados e compartilhar percepções.

  • Integrar

    • A plataforma Databricks integra-se aos provedores de identidade padrão para gerenciamento de usuários e logon único (SSO).

    • Serviços externos AI como o OpenAI, LangChain ou HuggingFace podem ser usados diretamente na Databricks Intelligence Platform.

    • Os orquestradores externos podem usar a API REST abrangente ou conectores dedicados a ferramentas de orquestração externas, como o Apache Airflow.

    • Unity Catalog é usado para toda a governança de dados e AI na Databricks Intelligence Platform e pode integrar outros bancos de dados à sua governança por meio da Lakehouse Federation.

      Além disso, o Unity Catalog pode ser integrado a outros catálogos empresariais. Entre em contato com o fornecedor do catálogo corporativo para obter detalhes.

Recursos comuns para todas as cargas de trabalho

Além disso, o Databricks lakehouse vem com recursos de gerenciamento compatíveis com todas as cargas de trabalho:

  • Governança de dados e IA

    O sistema central de governança de dados e AI na Databricks Data Intelligence Platform é Unity Catalog. Unity Catalog fornece um único local para gerenciar políticas lakehousede acesso a dados que se aplicam a todo o espaço de trabalho e oferece suporte a todos os ativos criados ou usados no site, como tabelas, volumes, recursos(recurso store) e modelos(registro de modelo). O Unity Catalog também pode ser usado para capturar a linhagem de dados em tempo de execução nas consultas executadas no Databricks.

    Databricks lakehouse O monitoramento permite que o senhor monitore a qualidade dos dados de todas as tabelas em seu site account. Ele também pode rastrear o desempenho do modelo do aprendizado de máquina e do endpoint do modelo de serviço.

    Para fins de observabilidade, as tabelas do sistema são um armazenamento analítico hospedado no site Databricksdos dados operacionais do seu site account. As tabelas do sistema podem ser usadas para observação histórica em seu site account.

  • Mecanismo de inteligência de dados

    A Databricks Data Intelligence Platform permite que toda a sua organização use dados e AI, combinando a geração AI com os benefícios de unificação de um lakehouse para entender a semântica exclusiva de seus dados. Consulte Databricks AI-recurso potente.

    O Databricks Assistant está disponível no Databricks Notebook, no editor SQL, no editor de arquivos e em outros lugares como um assistente AI sensível ao contexto para os usuários.

  • Automação & orquestração

    Databricks Os trabalhos orquestram o processamento de dados, o aprendizado de máquina e o pipeline analítico na Databricks Data Intelligence Platform. A DLT permite que o senhor crie um pipeline ETL confiável e de fácil manutenção com sintaxe declarativa. A plataforma também oferece suporte a CI/CD e MLOps

Casos de uso de alto nível para a Data Intelligence Platform no AWS

ingestão integrada de SaaS e bancos de dados com LakeFlow Connect

Ingestão com LFC em Databricks on AWS.

download: LakeFlow Connect arquitetura de referência para Databricks on AWS

Databricks LakeFlow Connect oferece conectores integrados para ingestão de aplicativos e bancos de dados corporativos. A ingestão resultante pipeline é governada por Unity Catalog e é alimentada por serverless compute e DLT. LakeFlow Connect aproveita leituras e gravações incrementais eficientes para tornar a ingestão de dados mais rápida, dimensionável e econômica, enquanto seus dados permanecem atualizados para consumo downstream.

Ingestão de lotes e ETL

lotes ETL arquitetura de referência em Databricks on AWS.

Download: Arquitetura de referência de ETL em lote para Databricks na AWS

As ferramentas de ingestão usam adaptadores específicos da fonte para ler os dados da fonte e, em seguida, armazená-los no armazenamento em nuvem, de onde Auto Loader pode lê-los, ou chamar Databricks diretamente (por exemplo, com ferramentas de ingestão de parceiros integradas ao Databricks lakehouse). Para carregar os dados, o Databricks ETL e o mecanismo de processamento executam as consultas por meio do DLT. O fluxo de trabalho único ou multitarefa pode ser orquestrado por Databricks Jobs e governado por Unity Catalog (controle de acesso, auditoria, linhagem e assim por diante). Para fornecer acesso a tabelas golden específicas para sistemas operacionais de baixa latência, exporte as tabelas para um banco de dados operacional, como um armazenamento de valores RDBMS ou keyno final do ETL pipeline.

transmissão e captura de dados de alterações (CDC) (CDC)

Spark transmissão estructurada architecture on Databricks on AWS.

Download: arquitetura de transmissão estruturada do Spark para Databricks on AWS

O mecanismo Databricks ETL Spark transmissão estruturada para leitura de filas de eventos, como Apache Kafka ou AWS Kinesis. As etapas posteriores seguem a abordagem do caso de uso lotes acima.

O tempo real de captura de dados de alterações (CDC) (CDC) normalmente usa uma fila de eventos para armazenar os eventos extraídos. A partir daí, o caso de uso segue o caso de uso de transmissão.

Se o CDC for feito em lote, onde os registros extraídos são armazenados primeiro no armazenamento em nuvem, o Databricks Autoloader poderá lê-los e o caso de uso seguirá o ETL em lote.

Aprendizado de máquina e AI (tradicional)

Aprendizado de máquina e AI arquitetura de referência para Databricks on AWS.

Download: Arquitetura de referência de aprendizado de máquina e IA para Databricks na AWS

Para o aprendizado de máquina, a Databricks Data Intelligence Platform Mosaic AI fornece, que vem com uma máquina de última geração e uma biblioteca profunda de aprendizado. Ele oferece recursos como o recurso Store e Model Registry Unity Catalogo recurso (ambos integrados ao), recurso low-code com AutoML e MLflow a integração do ao ciclo de vida da ciência de dados.

Toda a ciência de dados relacionada ao ativo (tabelas, recursos e modelos) é governada por Unity Catalog e data scientists pode usar Databricks Jobs para orquestrar seu trabalho.

Para implantar modelos de forma escalonável e de nível empresarial, use os MLOps recursos para publicar os modelos no servindo modelo.

AI Aplicativos de agente (Gen ) AI

Gen AI arquitetura de referência de aplicativos para Databricks on AWS.

download: Gen AI arquitetura de referência de aplicativos para Databricks on AWS

Para AI casos de uso generativo do, oMosaic AI vem com biblioteca de última geração e AI recursos específicos do Gen, desde a engenharia AI imediata até a criação de agentes e o ajuste fino dos modelos existentes. A arquitetura acima mostra um exemplo de como integrar o Vector Search em um agente Gen AI.

Para implantar modelos de maneira escalável e de nível empresarial, use os recursos de MLOps para publicar os modelos no serviço de modelos.

BI e analítica SQL

BI e SQL arquitetura de referência analítica para Databricks on AWS.

Download: arquitetura de referência de análise de BI e SQL para Databricks on AWS

Para os casos de uso do BI, o analista de negócios pode usar dashboards, o editorDatabricks SQL ou ferramentasBI como Tableau ou Amazon QuickSight. Em todos os casos, o mecanismo é Databricks SQL (serverless ou nãoserverless), e Unity Catalog fornece descobrimento de dados, exploração, linhagem e controle de acesso.

lakehouse federation

arquitetura de referência da lakehouse federation para Databricks on AWS.

Download: arquitetura de referência da Lakehouse Federation para Databricks on AWS

A lakehouse Federation permite que bancos de dados externos SQL (como MySQL, Postgres ou Redshift) sejam integrados ao Databricks.

Todas as cargas de trabalho (IA, DWH e BI) podem se beneficiar disso sem a necessidade de ETL dos dados no armazenamento de objetos primeiro. O catálogo de fontes externas é associado no catálogo do Unity e o controle de acesso refinado pode ser aplicado ao acesso por meio da plataforma Databricks.

Federação de catálogos

Arquitetura de referência da federação de catálogos para Databricks on AWS.

download: Arquitetura de referência da federação de catálogos para Databricks on AWS

A federação de catálogos permite que os Hive Metastores externos (como MySQL, Postgres ou Redshift) ou o Amazon Glue sejam integrados ao Databricks.

Todas as cargas de trabalho (AI, DWH e BI) podem se beneficiar disso sem a necessidade de ETL os dados no armazenamento de objetos primeiro. O catálogo de fontes externas é adicionado ao Unity Catalog, onde o controle de acesso refinado é aplicado por meio da plataforma Databricks.

Compartilhe dados com ferramentas de terceiros

Arquitetura de referência de compartilhamento de dados corporativos para Databricks on AWS.

download: Compartilhe dados com ferramentas de terceiros - arquitetura de referência para Databricks on AWS

O compartilhamento de dados de nível empresarial com terceiros é fornecido pelo Delta Sharing. Ele permite o acesso direto aos dados no armazenamento de objetos protegido pelo Unity Catalog. Esse recurso também é usado no Databricks Marketplaceum fórum aberto para troca de dados de produtos.

Consumir dados compartilhados de Databricks

Consumir dados compartilhados de Databricks para Databricks on AWS.

Faça o download: Consumir dados compartilhados da arquitetura de referência do Databricks para o Databricks on AWS

O protocoloDelta Sharing Databricks-to-Databricks permite compartilhar dados com segurança com qualquer usuário Databricks, independentemente do account ou do host da nuvem, desde que esse usuário tenha acesso a um workspace habilitado para Unity Catalog.