Pular para o conteúdo principal

Capacidades de ciência de dados e ML da Databricks

A Databricks possui uma plataforma unificada para todo o ciclo de vida da ciência de dados (DS) e do machine learning (ML), desde a ingestão de dados brutos, passando pela engenharia de recursos, treinamento de modelos, implantação e monitoramento de produção. A Databricks integra-se com estruturas de ML de código aberto populares, adicionando governança de nível corporativo, observabilidade e ferramentas operacionais, coletivamente conhecidos como MLOps.

Esta página lista os principais recursos de DS e ML, organizados por estágio de fluxo de trabalho.

Análise exploratória de dados

Databricks simplifica a análise exploratória de dados (EDA) fornecendo ferramentas interativas, colaborativas e assistidas por AI para cientistas de dados. Cientistas de dados podem explorar dados usando chat de linguagem natural, UIs ou código, e eles podem colaborar usando tanto a coedição em tempo real quanto o compartilhamento de código baseado em Git. Genie Code pode realizar EDA totalmente automatizada ou atuar como um assistente interativo.

Categoria

Recursos

Interface do usuário

  • Notebooks oferecem espaços colaborativos para exploração, visualização e documentação para EDA.
  • Painéis fornecem EDA com base em SQL e visualização.
  • Genie Chat tem uma interface de linguagem natural para fazer perguntas de dados.

Colaboração

Assistentes de AI

Preparar e disponibilizar recursos

A Databricks simplifica os dados para ML unificando a governança de dados e cargas de trabalho de ML. Com todos os dados gerenciados no Unity Catalog com controles de acesso refinados, você pode ajustar os limites de engenharia de dados e ML para se adequar à sua organização. Os dados podem ser preparados para ML usando quaisquer ferramentas de engenharia de dados, como Lakeflow Spark Declarative Pipelines. Os recursos são gerenciados em uma Feature Store para veiculação tanto em lotes quanto em tempo real, com uma única fonte de verdade governada para os recursos.

Genie Code acelera o descobrimento de dados e a preparação ao navegar pelo Unity Catalog para descobrir tabelas relevantes, sugerindo transformações de recursos e gerando código para ingestão e pipelines de recursos.

Tipo de recurso

Recursos

Recursos em lote

  • Tabelas de recursos no Unity Catalog armazenam recursos pré-computados em lotes com linhagem e governança automáticas. As equipes descobrem e reutilizam recursos existentes em vez de reconstruir pipelines do zero.
  • Recursos declarativos fornecem uma nova API para definir recursos que podem então ser usados para computação de recursos em lotes ou em tempo real.

Recursos em tempo real

  • Para recursos pré-computados, repositórios de recursos online fornecem tabelas de recursos para casos de uso de disponibilização de modelos em tempo real.
  • Quando as entradas de featurização estão disponíveis apenas no momento da veiculação, Feature Serving tem computação de recursos sob demanda para complementar as tabelas de recursos. Recursos são definidos como funções, em vez de pré-calculados.
  • Recursos declarativos fornecem uma nova API para definir recursos que podem então ser usados para computação de recursos em lotes ou em tempo real.

Dados não estruturados

AI Search permite servir dados não estruturados e executar busca semântica.

Treinar modelos de ML

Databricks possui ferramentas flexíveis para treinamento de modelos de ML e aprendizagem profunda. Ambientes pré-configurados e personalizáveis permitem o uso de bibliotecas de ML personalizadas, e recursos de compute serverless acelerados por CPU e GPU permitem o dimensionamento horizontal e vertical sob demanda. O Genie Code oferece AutoML inteligente, aceitando solicitações em linguagem natural e construindo um fluxo de trabalho completo com vários Notebook para feature engineering, treinamento, ajuste, avaliação e implantação.

Categoria

Recursos

Tipos de ML

Databricks suporta todos os tipos de ML, incluindo:

  • ML Clássico: Aprendizagem supervisionada e não supervisionada com scikit-learn, XGBoost, LightGBM, Apache Spark MLlib e outros frameworks de ML
  • Aprendizagem profunda: treinamento de rede neural com PyTorch, TensorFlow e Hugging Face Transformers, incluindo treinamento distribuído em várias GPUs
  • Ajuste de hiperparâmetros: Busca automatizada em espaços de algoritmos e hiperparâmetros utilizando ferramentas como Optuna and Ray

Para IA generativa, consulte recursos de IA generativa da Databricks.

Compute

  • Compute serverless começa instantaneamente para notebooks interativos e fluxos de trabalho agendados, com dimensionamento automático e sem gerenciamento de clusters. É compatível com clusters acelerados por CPU e GPU.
  • Compute Classic tem gerenciamento de máquina única e de clusters para cargas de trabalho de CPU e GPU.

Ambientes e bibliotecas

  • Ambientes de compute serverless oferecem ambientes base que podem ser totalmente personalizados para ML. Para compute de GPU serverless, o AI Runtime fornece ambientes pré-configurados para treinamento e inferência baseados em GPU.
  • Para o compute clássico, o Databricks Runtime for Machine Learning oferece ambientes de cluster pré-configurados com as principais bibliotecas de ML pré-instaladas e testadas em conjunto, tanto para clusters acelerados por CPU quanto por GPU.

Assistentes de codificação de IA

Rastrear e gerenciar experimentos

O MLflow gerenciado pela Databricks fornece a base para um desenvolvimento de ML reproduzível e auditável. Suas integrações com o Unity Catalog e o Git fornecem acompanhamento e linhagem para ativos de dados e de código. Cada versão de modelo no registro vincula-se à execução de treinamento, dataset, ambiente e commit git que a produziu, fornecendo uma trilha de auditoria completa para qualquer modelo implantado.

Categoria

Recursos

Acompanhamento de experimentos

Acompanhamento do MLflow registra parâmetros, métricas e artefatos para cada execução de treinamento. Compare as execuções na interface do usuário do MLflow para identificar a configuração de melhor desempenho.

Registro de modelos

Modelos no Unity Catalog oferece um registro de modelos MLflow integrado com o Unity Catalog. Artefatos de modelo com versão são governados com aliases de ciclo de vida (Staging, Production), controle de acesso, linhagem e compartilhamento entre-workspaces.

Reprodutibilidade

Notebooks e código podem ser versionados usando pastas Git do Databricks e integrados com qualquer provedor Git.

Implantar e servir modelos

Databricks oferece suporte a inferência em lotes e serviço em tempo real. A inferência em lotes aplica modelos de forma eficiente a grandes datasets, enquanto o serviço em tempo real fornece modelos como endpoints de API de baixa latência. Genie Code pode tanto gerar código para implantação de modelo quanto diagnosticar problemas e o desempenho para endpoints de servindo modelo.

Padrão de disponibilização

Recursos

Inferência de batch

Serviço em tempo real

Model Serving oferece endpoints REST gerenciados de baixa latência e alta disponibilidade com dimensionamento automático serverless. Isso oferece suporte para disponibilização de CPU e GPU para qualquer framework de ML, e você pode usar o Genie para avaliar e solucionar problemas de endpoints de disponibilização.

Inferência nativa de SQL

  • Funções de AI fornecem previsões de ML acessíveis por SQL para previsão, detecção de anomalia e análise de drivers, sem a necessidade de Python ou implantação de modelo.
  • Para modelos personalizados, a função de AI ai_query fornece inferência eficiente em lotes apoiada por endpoints de Model Serving.

Avalie e monitore

Databricks fornece avaliação flexível para treinamento e monitoramento contínuo para produção. Logs de serving em tempo real para tabelas de inferência governadas no Unity Catalog, e monitoramento de qualidade de dados fornece monitoramento com métricas personalizadas, dashboards e alertas.

Categoria

Recursos

Avaliação

Registro de previsão

Tabelas de Inferência fazem log de solicitações e respostas de serviço, permitindo monitoramento, analítica e a construção de conjuntos de treinamento.

Monitoramento e alertas

MLOps e governança

A Databricks fornece um conjunto completo de ferramentas para operações de ML (MLOps) e governança. MLOps Stacks fornece padrões para permitir a promoção automatizada e repetível do desenvolvimento para a produção usando Infrastructure-as-Code. Dados, recursos, modelos e endpoints são totalmente governados por Unity Catalog e AI Gateway.

Categoria

Recursos

CI/CD para ML

Stacks de MLOps, construídos sobre Bundles de Automação Declarativa, fornecem gerenciamento e implantação baseados em código de infraestrutura de ML e fluxos de trabalho. Isto inclui padrões de CI/CD para automatizar o treinamento, a avaliação e a implantação.

Orquestração de fluxo de trabalho

Lakeflow Jobs orquestra fluxos de trabalho de ML de várias etapas como pipelines programados ou acionados.

Governança de ativos de dados e modelos

Unity Catalog fornece governança unificada para dados, recursos e modelos registrados. Controles de acesso refinados, acompanhamento de linhagem e logs de auditoria aplicam-se a todos os ativos.

Governança de endpoint de modelo

O AI Gateway fornece governança centralizada e monitoramento para endpoints de modelo, incluindo limites de taxa, acompanhamento de uso e registro de carga útil.

Suporte a código aberto

Databricks fornece suporte completo para o ecossistema de ML de código aberto.

Você pode usar qualquer framework de ML de código aberto no Databricks: Scikit-learn, XGBoost, LightGBM, PyTorch, TensorFlow, Hugging Face Transformers, Ray e muito mais. O MLflow ou suas ferramentas personalizadas podem armazenar artefatos de modelo em formatos abertos que podem ser exportados e executados fora do Databricks.

MLflow é de código aberto, criado pelo Databricks e usado por mais de 10.000 organizações. Seus dados de acompanhamento de experimento, artefatos de modelo e definições de pipeline são armazenados em formatos abertos.

A governança de dados e IA é desenvolvida sobre as APIs de código aberto do Unity Catalog, e o armazenamento de dados é baseado no formato aberto do Delta Lake. Seus dados de recurso e conjuntos de dados de treinamento permanecem em arquivos abertos e portáteis.

Saiba mais