Pular para o conteúdo principal

O escopo da plataforma lakehouse

Uma estrutura moderna de plataforma de dados e AI

Para discutir o âmbito da plataforma de inteligência de dados Databricks, devemos primeiro definir uma estrutura básica para a plataforma moderna de dados e IA:

Estrutura de análise de dados em nuvem.

Visão geral do escopo do site lakehouse

A plataforma de inteligência de dados do Databricks abrange toda a estrutura das plataformas de dados modernas. Foi construída na arquitetura lakehouse e conta com a tecnologia de um mecanismo de inteligência de dados que entende as qualidades exclusivas dos seus dados. Atua como base aberta e unificada para cargas de trabalho ETL, ML/IA e DWH/BI e tem o Unity Catalog como principal solução de governança de dados e IA.

Personas da estrutura da plataforma

A estrutura abrange os principais membros da equipe de dados (personas) que trabalham com os aplicativos da estrutura:

  • Os engenheiros de dados entregam aos cientistas de dados e analistas de negócios dados precisos e reproduzíveis para a tomada de decisões em tempo hábil e insights em tempo real. Eles implementam processos de ETL altamente coerentes e confiáveis para aumentar a confiança do usuário nos dados. Eles garantem que os dados sejam bem integrados aos vários pilares do negócio e, normalmente, seguem as práticas recomendadas de engenharia de software.
  • Os Cientistas de dados combinam conhecimento analítico e dos negócios para transformar dados em conhecimento estratégico e modelos preditivos. São hábeis na conversão de desafios de negócios em soluções data-driven, seja por meio de conhecimentos analíticos retrospectivos ou modelagem preditiva voltada para o futuro. Utilizando técnicas de modelagem de dados e aprendizado de máquina, projetam, desenvolvem e implantam modelos que revelam padrões, tendências e previsões a partir dos dados. Atuam como uma ponte, convertendo narrativas de dados complexas em histórias compreensíveis, garantindo que as partes interessadas da empresa não somente entendam, mas também possam agir de acordo com as recomendações data-driven, o que por sua vez promove uma abordagem concentrada em dados para a solução de problemas em uma organização.
  • Os engenheiros de ML (engenheiros de machine learning) lideram a aplicação prática da ciência de dados em produtos e soluções por meio da criação, implantação e manutenção de modelos do machine learning. Seu foco principal está voltado para o aspecto de engenharia do desenvolvimento e implantação de modelos. Os engenheiros de ML garantem a robustez, confiabilidade e escalabilidade dos sistemas de machine learning em ambientes ativos, enfrentando os desafios relacionados à qualidade, infraestrutura e desempenho dos dados. Ao integrar modelos de IA e ML em processos operacionais de negócios e produtos voltados para o usuário, eles facilitam a utilização da ciência de dados na solução de desafios de negócios, garantindo que os modelos não fiquem apenas na pesquisa, mas gerem um valor comercial concreto.
  • analista de negócios e usuários de negócios : o analista de negócios fornece dados acionáveis às partes interessadas e às equipes de negócios. Eles geralmente interpretam dados e criam relatórios ou outra documentação para a gerência usando ferramentas de BI padrão. Normalmente, eles são o primeiro ponto de contato para usuários comerciais não técnicos e colegas de operações para perguntas rápidas de análise. Os painéis e aplicativos de negócios fornecidos na plataforma Databricks podem ser usados diretamente pelos usuários corporativos.
  • Os parceiros comerciais são partes interessadas importantes no mundo dos negócios que está, cada vez mais, conectado em rede. São definidos empresas ou indivíduos com os quais uma empresa estabelece um relacionamento formal para atingir um objetivo comum, e podem ter entre eles vendedores, fornecedores, distribuidores e outros parceiros terceirizados. O compartilhamento de dados é um aspecto importante das parcerias comerciais, pois permite a transferência e a troca de dados para melhorar a colaboração e a tomada de decisão baseada em dados.

Domínios da estrutura da plataforma

A plataforma consiste em vários domínios:

  • Armazenamento: na nuvem, os dados são armazenados principalmente em armazenamentos de objetos dimensionáveis, eficientes e resilientes nos provedores de nuvem.

  • Governança: recursos relacionados à governança de dados, tais como controle de acesso, auditoria, gerenciamento de metadados, rastreamento de linhagem e monitoramento de todos os dados e ativos de IA.

  • Mecanismo de IA: o mecanismo de IA oferece recursos de IA generativa para toda a plataforma.

  • Ingerir & transformar: Os recursos para cargas de trabalho de ETL.

  • Análise avançada, ML, e AI : Todos os recursos de aprendizado de máquina, AI, e transmissão analítica.

  • data warehouse: O domínio que dá suporte aos casos de uso de DWH e BI.

  • Automação: gerenciamento de fluxo de trabalho para processamento de dados, aprendizado de máquina, pipeline analítico, incluindo suporte para CI/CD e MLOps.

  • Ferramentas de DS e ETL: as ferramentas de front-end que os engenheiros de dados, cientistas de dados e engenheiros de ML usam principalmente para trabalhar.

  • Ferramentas de BI: as ferramentas de front-end que os analistas de BI usam principalmente para trabalhar.

  • Colaboração : recursos para compartilhamento de dados entre duas ou mais partes.

O escopo da Plataforma Databricks

A Databricks Data Intelligence Platform e seus componentes podem ser associados à estrutura da seguinte forma:

Diagrama do escopo do site lakehouse. download: Escopo dos componentes do lakehouse - Databricks

Cargas de trabalho de dados em Databricks

O mais importante é que a Databricks Data Intelligence Platform abrange todas as cargas de trabalho relevantes para o domínio de dados em uma única plataforma, com Apache Spark/Photon como o mecanismo:

  • Ingestão e transformação

    Para ingestão de dados, Auto Loader processa de forma incremental e automática os arquivos que chegam ao armazenamento em nuvem em trabalhos programados ou contínuos, sem a necessidade de gerenciar informações de estado. Uma vez ingeridos, os dados brutos precisam ser transformados para que estejam prontos para BI e ML/AI. Databricks oferece recursos avançados do ETL para engenheiros de dados, data scientists e analistas.

    A DLT (DLT) permite escrever ETL Job de forma declarativa, simplificando todo o processo de implementação. A qualidade dos dados pode ser aprimorada definindo as expectativas dos dados.

  • Analítica avançada, ML e IA

    A plataforma inclui Databricks Mosaic AI Um conjunto de ferramentas de aprendizado de máquina totalmente integradas e AI para máquina clássica e aprendizado profundo. Ele abrange todo o fluxo de trabalho, desde a preparação de dados até a criação de modelos de aprendizado profundo e de aprendizado de máquina, passando Mosaic AI Model Serving pelo.

    Spark A transmissão estruturada e a DLT permitem uma análise de tempo real.

  • Data warehouse

    A Databricks Data Intelligence Platform também possui uma solução completa data warehouse com Databricks SQLcentralmente governado por Unity Catalog com controle de acesso refinado.

Esboço das áreas do recurso Databricks

Trata-se do mapeamento dos recursos da Databricks Data Intelligence Platform para as outras camadas da estrutura, de baixo para cima:

  • Armazenamento em nuvem

    Todos os dados do site lakehouse são armazenados no armazenamento de objetos do provedor de nuvem. A Databricks é compatível com três provedores de nuvem: AWS, Azure e GCP. Arquivos em vários formatos estruturados e semiestruturados (por exemplo, Parquet, CSV, JSON e Avro), bem como formatos não estruturados (como imagens e documentos), são ingeridos e transformados por meio de lotes ou processos de transmissão.

    O Delta Lake é o formato de dados recomendado para o lakehouse (transações de arquivos, confiabilidade, consistência, atualizações etc.) e é totalmente de código aberto para evitar a dependência. E o Delta Universal Format (UniForm) permite que o senhor leia tabelas Delta com clientes de leitura Iceberg.

    Não é utilizado nenhum formato de dados proprietário na Plataforma de inteligência de dados do Databricks.

  • Governança de dados e IA

    Na parte superior da camada de armazenamento, Unity Catalog oferece uma ampla variedade de recursos de governança de dados e AI, incluindo gerenciamento de metadados no metastore, controle de acesso, auditoria, descobrimento de dados e linhagem de dados.

    O monitoramento da Lakehouse fornece métricas de qualidade prontas para uso para dados e AI ativo, além de painéis gerados automaticamente para visualizar essas métricas.

    Fontes SQL externas podem ser integradas ao lakehouse e ao Unity Catalog por meio da federação de lakehouse.

  • Motor de IA

    A Data Intelligence Platform foi desenvolvida com base na arquitetura lakehouse e aprimorada pelo mecanismo de inteligência de dados DatabricksIQ. DatabricksIQ combina o generativo AI com os benefícios de unificação da arquitetura lakehouse para entender a semântica exclusiva de seus dados. O Intelligent Search e o Databricks Assistant são exemplos de serviços do AI que simplificam o trabalho com a plataforma para todos os usuários.

  • Orquestração

    Databricks Os trabalhos permitem que o senhor execute diversas cargas de trabalho para todo o ciclo de vida dos dados e AI em qualquer nuvem. Eles permitem que o senhor orquestre o Job e o DLT para os modelos SQL, Spark, Notebook, DBT, ML e outros.

    A plataforma também oferece suporte a CI/CD e MLOps

  • ETL & Ferramentas de DS

    Na camada de consumo, os engenheiros de dados e de ML normalmente trabalham com a plataforma usando IDEs. data scientists muitas vezes preferem o Notebook e usam os tempos de execução ML e AI e o sistema de fluxo de trabalho de aprendizado de máquina MLflow para acompanhar os experimentos e gerenciar o ciclo de vida do modelo.

  • Ferramentas de BI

    Os analistas de negócios normalmente usam sua ferramenta preferida BI para acessar o site Databricks data warehouse. Databricks SQL pode ser consultado por diferentes ferramentas de análise e BI, consulte BI e visualização

    Além disso, a plataforma oferece ferramentas de consulta e análise prontas para uso:

    • AI/BI Dashboards para arrastar e soltar visualizações de dados e compartilhar percepções.

    • Especialistas no domínio, como analistas de dados, configuram AI/BI Genie spaces com conjunto de dados, consultas de amostra e diretrizes de texto para ajudar o Genie a traduzir perguntas comerciais em consultas analíticas. Após a configuração, os usuários corporativos podem fazer perguntas e gerar visualizações para entender os dados operacionais.

    • SQL editor para SQL analista para analisar dados.

  • Colaboração

    O Delta Sharing é um protocolo aberto desenvolvido pelo Databricks para compartilhamento seguro de dados com outras organizações, independentemente das plataformas de computação que utilizam.

    Databricks Marketplace é um fórum aberto para troca de dados de produtos. O site Delta Sharing aproveita para oferecer aos provedores de dados as ferramentas para compartilhar dados de forma segura e aos consumidores de dados o poder de explorar e expandir seu acesso aos dados e serviços de dados de que precisam.