O escopo da plataforma lakehouse

Uma estrutura moderna de plataforma de dados e IA

Para discutir o escopo da Plataforma de inteligência de dados da Databricks, é útil definir primeiro uma estrutura básica para a plataforma moderna de dados e IA:

estrutura de análise de dados em nuvem

Visão geral do escopo da casa do lago

A Databricks Data Intelligence Platform abrange a estrutura completa da plataforma de dados moderna. Ele foi desenvolvido com base na arquitetura lakehouse e é alimentado por um mecanismo de inteligência de dados que compreende as qualidades exclusivas de seus dados. É uma base aberta e unificada para cargas de trabalho de ETL, ML/IA e DWH/BI, e fornece o Unity Catalog como solução central de governança de dados e IA.

Personas da estrutura da plataforma

A estrutura abrange os principais membros da equipe de dados (personas) que trabalham com os aplicativos da estrutura:

  • O engenheiro de dados fornece ao cientista de dados e ao analista de negócios dados precisos e reproduzíveis para a tomada de decisões em tempo hábil e percepções em tempo real. Eles implementam processos de ETL altamente consistentes e confiáveis para aumentar a confiança do usuário nos dados. Eles garantem que os dados sejam bem integrados aos vários pilares da empresa e, normalmente, seguem as práticas recomendadas de engenharia de software.

  • Os cientistas de dados combinam a experiência analítica e o entendimento do negócio para transformar os dados em percepções estratégicas e modelos preditivos. Eles são hábeis em traduzir desafios comerciais em soluções data-driven, seja por meio de percepções analíticas retrospectivas ou de modelagem preditiva voltada para o futuro. Utilizando técnicas de modelagem de dados e machine learning, eles projetam, desenvolvem e implantam modelos que revelam padrões, tendências e previsões a partir dos dados. Eles atuam como uma ponte, convertendo narrativas de dados complexas em histórias compreensíveis, garantindo que as partes interessadas da empresa não apenas entendam, mas também possam agir de acordo com as recomendações do site data-driven, o que, por sua vez, promove uma abordagem centrada em dados para a solução de problemas em uma organização.

  • Os engenheiros de ML (machine learning engineers) lideram a aplicação prática da ciência de dados em produtos e soluções, criando, implantando e mantendo modelos de aprendizado de máquina. Seu foco principal está voltado para o aspecto de engenharia do desenvolvimento e implantação de modelos. Os engenheiros de ML garantem a robustez, a confiabilidade e a escalabilidade dos sistemas machine learning em ambientes ativos, abordando desafios relacionados à qualidade, à infraestrutura e ao desempenho dos dados. Ao integrar modelos de IA e ML em processos operacionais de negócios e produtos voltados para o usuário, eles facilitam a utilização da ciência de dados na solução de desafios de negócios, garantindo que os modelos não fiquem apenas na pesquisa, mas gerem um valor comercial tangível.

  • analista de negócios capacita as partes interessadas e as equipes de negócios com dados acionáveis. Eles geralmente interpretam dados e criam relatórios ou outra documentação para a liderança usando ferramentas de BI padrão. Normalmente, eles são o ponto de contato para colegas de negócios e operações não técnicos para perguntas rápidas de análise.

  • Os parceiros de negócios são uma parte interessada importante em um mundo de negócios cada vez mais conectado em rede. Eles são definidos como uma empresa ou indivíduo com quem uma empresa tem um relacionamento formal para atingir um objetivo comum e podem incluir vendedores, fornecedores, distribuidores e outros parceiros terceirizados. O compartilhamento de dados é um aspecto importante das parcerias de negócios, pois permite a transferência e a troca de dados para aprimorar a colaboração e a tomada de decisões em data-driven.

Domínios da estrutura da plataforma

A plataforma consiste em vários domínios:

  • Armazenamento: Nas nuvens, os dados são armazenados principalmente em armazenamentos de objetos em nuvens dimensionáveis, eficientes e resilientes fornecidos pelos provedores de nuvens.

  • Governança: Recursos relacionados à governança de dados, por exemplo. controle de acesso, auditoria, gerenciamento de metadados, acompanhamento de linhagem, monitoramento de todos os dados e IA ativo.

  • Mecanismo de IA: o mecanismo de IA fornece recursos de IA generativa para toda a plataforma.

  • Ingest & transform Os recursos para cargas de trabalho de ETL.

  • Análise avançada, ML e IA Todos os recursos em machine learning, IA, IA generativa e também transmissão analítica.

  • data warehouse O domínio que suporta casos de uso de DWH e BI.

  • Domínio de orquestração para o gerenciamento central do fluxo de trabalho e o

  • ETL & Ferramentas de DS: As ferramentas de front-end que o engenheiro de dados, o cientista de dados e os engenheiros de ML usam principalmente para trabalhar.

  • Ferramentas de BI: As ferramentas de front-end que os analistas de BI usam principalmente para trabalhar.

  • Colaboração: Recursos para compartilhamento de dados entre duas ou mais partes.

O escopo da Plataforma Databricks

A Databricks Data Intelligence Platform e seus componentes podem ser mapeados para a estrutura da seguinte forma:

Escopo do lakehouse

downloads: Escopo dos componentes do lakehouse - Databricks

O mais importante é que a Databricks Data Intelligence Platform abrange todas as cargas de trabalho relevantes para o domínio de dados em uma única plataforma, com o Apache Spark/Photon como o mecanismo:

  • Ingestão & transformar

    Para a ingestão de dados, o Auto Loader processa de forma incremental e automática os arquivos que chegam ao armazenamento em nuvem em um trabalho programado ou contínuo, sem a necessidade de gerenciar informações de estado. Uma vez ingeridos, os dados brutos precisam ser transformados para que estejam prontos para BI e ML/IA. A Databricks oferece recursos avançados de ETL para engenheiros de dados, cientistas de dados e analistas.

    O Delta Live Tables (DLT) permite que o trabalho de ETL seja escrito de forma declarativa, simplificando todo o processo de implementação. A qualidade dos dados pode ser aprimorada com a definição de suas expectativas.

  • Analítica avançada, ML & IA

    A plataforma vem com o Databricks Mosaic AI, um conjunto de ferramentas de IA e machine learning totalmente integradas para máquinas tradicionais e aprendizagem profunda, bem como IA generativa e modelos de linguagem grandes (LLMs). Ele abrange todo o fluxo de trabalho, desde a preparação dos dados até a criação de modelos de machine learning e aprendizagem profunda de modelos, até o Mosaic AI Model Serving.

    O Spark Transmission Estructurada e o DLT permitem uma análise em tempo real.

  • solução de data warehouse

    A Plataforma de Inteligência de Dados da Databricks também oferece uma solução data warehouse completa com o Databricks SQL, centralmente administrada pelo Unity Catalog com controle de acesso refinado.

Mapeamento do recurso da Databricks Data Intelligence Platform para as outras camadas da estrutura, de baixo para cima:

  • armazenamento em nuvem

    Todos os dados do site lakehouse são armazenados no armazenamento de objetos do provedor de nuvem. A Databricks oferece suporte a três provedores de nuvem: AWS, Azure e GCP. Arquivos em vários formatos estruturados e semiestruturados (por exemplo, Parquet, CSV, JSON, Avro), bem como formatos não estruturados (por exemplo, imagens) são ingeridos e transformados usando processos de lotes ou de transmissão.

    O Delta Lake é o formato de dados recomendado para o lakehouse (transações de arquivos, confiabilidade, consistência, atualizações etc.) e é totalmente de código aberto para evitar a dependência. E o Delta Universal Format (UniForm) permite que o senhor leia tabelas Delta com clientes de leitura Iceberg.

    Nenhum formato de dados proprietário é usado na Databricks Data Intelligence Platform.

  • Governança de dados

    Além da camada de armazenamento, o Unity Catalog oferece uma ampla gama de recursos de governança de dados, incluindo gerenciamento de metadados no metastore, controle de acesso, auditoria, descoberta de dados e linhagem de dados.

    O monitoramento da Lakehouse fornece métricas de qualidade prontas para uso para dados e IA ativo, além de painéis gerados automaticamente para visualizar essas métricas.

    As fontes SQL externas podem ser integradas ao lakehouse e ao Unity Catalog por meio da federação de lakehouse.

  • Mecanismo de IA

    A Data Intelligence Platform foi desenvolvida com base na arquitetura lakehouse e aprimorada pelo mecanismo de inteligência de dados DatabricksIQ. O DatabricksIQ combina a IA generativa com os benefícios de unificação da arquitetura lakehouse para entender a semântica exclusiva de seus dados. O Intelligent Search e o Databricks Assistant são exemplos de serviços com tecnologia de IA que simplificam o trabalho com a plataforma para todos os usuários.

  • Orquestração

    Databricks Workflows permitem que o senhor execute diversas cargas de trabalho para todo o ciclo de vida de dados e IA em qualquer nuvem. Eles permitem que o senhor orquestre o Job e as Delta Live Tables para SQL, Spark, Notebook, DBT, modelos de ML e muito mais.

  • ETL & Ferramentas de DS

    Na camada de consumo, os engenheiros de dados e de ML normalmente trabalham com a plataforma usando IDEs. Os cientistas de dados geralmente preferem o Notebook e usam os tempos de execução de ML e IA e o machine learning sistema de fluxo de trabalho MLflow do site para rastrear experimentos e gerenciar o ciclo de vida do modelo.

  • Ferramentas de BI

    Os analistas de negócios normalmente usam sua ferramenta de BI preferida para acessar o data warehouse da Databricks. Databricks SQL pode ser consultado por diferentes ferramentas de análise e BI, consulte BI e visualização

    Além disso, a plataforma oferece ferramentas de consulta e análise prontas para uso:

    • Painéis do Lakeview para criar visualizações de dados e compartilhar percepções com o recurso de arrastar e soltar.

    • Editor de SQL para analistas de SQL analisarem dados.

    • Dashboarding baseado no SQL Editor para criar e compartilhar dashboards.

  • Colaboração

    O Delta Sharing é um protocolo aberto desenvolvido pela Databricks para o compartilhamento seguro de dados com outras organizações, independentemente das plataformas de computação que utilizam.

    O Databricks Marketplace é um fórum aberto para troca de produtos de dados. Ele aproveita o Delta Sharing para oferecer aos provedores de dados as ferramentas para compartilhar dados de forma segura e aos consumidores de dados o poder de explorar e expandir o acesso aos dados e serviços de dados de que precisam.