Capacidades de ciência de dados e ML da Databricks
A Databricks possui uma plataforma unificada para todo o ciclo de vida da ciência de dados (DS) e do machine learning (ML), desde a ingestão de dados brutos, passando pela engenharia de recursos, treinamento de modelos, implantação e monitoramento de produção. A Databricks integra-se com estruturas de ML de código aberto populares, adicionando governança de nível corporativo, observabilidade e ferramentas operacionais, coletivamente conhecidos como MLOps.
Esta página lista os principais recursos de DS e ML, organizados por estágio de fluxo de trabalho.
Análise exploratória de dados
Databricks simplifica a análise exploratória de dados (EDA) fornecendo ferramentas interativas, colaborativas e assistidas por AI para cientistas de dados. Cientistas de dados podem explorar dados usando chat de linguagem natural, UIs ou código, e eles podem colaborar usando tanto a coedição em tempo real quanto o compartilhamento de código baseado em Git. Genie Code pode realizar EDA totalmente automatizada ou atuar como um assistente interativo.
Categoria | Recursos |
|---|---|
Interface do usuário |
|
Colaboração |
|
Assistentes de AI |
|
Preparar e disponibilizar recursos
A Databricks simplifica os dados para ML unificando a governança de dados e cargas de trabalho de ML. Com todos os dados gerenciados no Unity Catalog com controles de acesso refinados, você pode ajustar os limites de engenharia de dados e ML para se adequar à sua organização. Os dados podem ser preparados para ML usando quaisquer ferramentas de engenharia de dados, como Lakeflow Spark Declarative Pipelines. Os recursos são gerenciados em uma Feature Store para veiculação tanto em lotes quanto em tempo real, com uma única fonte de verdade governada para os recursos.
Genie Code acelera o descobrimento de dados e a preparação ao navegar pelo Unity Catalog para descobrir tabelas relevantes, sugerindo transformações de recursos e gerando código para ingestão e pipelines de recursos.
Tipo de recurso | Recursos |
|---|---|
Recursos em lote |
|
Recursos em tempo real | Recursos declarativos fornecem uma nova API para definir recursos que podem então ser usados para computação de recursos em lotes ou em tempo real. |
Dados não estruturados | AI Search permite servir dados não estruturados e executar busca semântica. |
Treinar modelos de ML
Databricks possui ferramentas flexíveis para treinamento de modelos de ML e aprendizagem profunda. Ambientes pré-configurados e personalizáveis permitem o uso de bibliotecas de ML personalizadas, e recursos de compute serverless acelerados por CPU e GPU permitem o dimensionamento horizontal e vertical sob demanda. O Genie Code oferece AutoML inteligente, aceitando solicitações em linguagem natural e construindo um fluxo de trabalho completo com vários Notebook para feature engineering, treinamento, ajuste, avaliação e implantação.
Categoria | Recursos |
|---|---|
Tipos de ML | Databricks suporta todos os tipos de ML, incluindo:
Para IA generativa, consulte recursos de IA generativa da Databricks. |
Compute |
|
Ambientes e bibliotecas |
|
Assistentes de codificação de IA |
|
Rastrear e gerenciar experimentos
O MLflow gerenciado pela Databricks fornece a base para um desenvolvimento de ML reproduzível e auditável. Suas integrações com o Unity Catalog e o Git fornecem acompanhamento e linhagem para ativos de dados e de código. Cada versão de modelo no registro vincula-se à execução de treinamento, dataset, ambiente e commit git que a produziu, fornecendo uma trilha de auditoria completa para qualquer modelo implantado.
Categoria | Recursos |
|---|---|
Acompanhamento de experimentos | Acompanhamento do MLflow registra parâmetros, métricas e artefatos para cada execução de treinamento. Compare as execuções na interface do usuário do MLflow para identificar a configuração de melhor desempenho. |
Registro de modelos | Modelos no Unity Catalog oferece um registro de modelos MLflow integrado com o Unity Catalog. Artefatos de modelo com versão são governados com aliases de ciclo de vida ( |
Reprodutibilidade | Notebooks e código podem ser versionados usando pastas Git do Databricks e integrados com qualquer provedor Git. |
Implantar e servir modelos
Databricks oferece suporte a inferência em lotes e serviço em tempo real. A inferência em lotes aplica modelos de forma eficiente a grandes datasets, enquanto o serviço em tempo real fornece modelos como endpoints de API de baixa latência. Genie Code pode tanto gerar código para implantação de modelo quanto diagnosticar problemas e o desempenho para endpoints de servindo modelo.
Padrão de disponibilização | Recursos |
|---|---|
Inferência de batch |
|
Serviço em tempo real | Model Serving oferece endpoints REST gerenciados de baixa latência e alta disponibilidade com dimensionamento automático serverless. Isso oferece suporte para disponibilização de CPU e GPU para qualquer framework de ML, e você pode usar o Genie para avaliar e solucionar problemas de endpoints de disponibilização. |
Inferência nativa de SQL |
|
Avalie e monitore
Databricks fornece avaliação flexível para treinamento e monitoramento contínuo para produção. Logs de serving em tempo real para tabelas de inferência governadas no Unity Catalog, e monitoramento de qualidade de dados fornece monitoramento com métricas personalizadas, dashboards e alertas.
Categoria | Recursos |
|---|---|
Avaliação |
|
Registro de previsão | Tabelas de Inferência fazem log de solicitações e respostas de serviço, permitindo monitoramento, analítica e a construção de conjuntos de treinamento. |
Monitoramento e alertas |
|
MLOps e governança
A Databricks fornece um conjunto completo de ferramentas para operações de ML (MLOps) e governança. MLOps Stacks fornece padrões para permitir a promoção automatizada e repetível do desenvolvimento para a produção usando Infrastructure-as-Code. Dados, recursos, modelos e endpoints são totalmente governados por Unity Catalog e AI Gateway.
Categoria | Recursos |
|---|---|
CI/CD para ML | Stacks de MLOps, construídos sobre Bundles de Automação Declarativa, fornecem gerenciamento e implantação baseados em código de infraestrutura de ML e fluxos de trabalho. Isto inclui padrões de CI/CD para automatizar o treinamento, a avaliação e a implantação. |
Orquestração de fluxo de trabalho | Lakeflow Jobs orquestra fluxos de trabalho de ML de várias etapas como pipelines programados ou acionados. |
Governança de ativos de dados e modelos | Unity Catalog fornece governança unificada para dados, recursos e modelos registrados. Controles de acesso refinados, acompanhamento de linhagem e logs de auditoria aplicam-se a todos os ativos. |
Governança de endpoint de modelo | O AI Gateway fornece governança centralizada e monitoramento para endpoints de modelo, incluindo limites de taxa, acompanhamento de uso e registro de carga útil. |
Suporte a código aberto
Databricks fornece suporte completo para o ecossistema de ML de código aberto.
Você pode usar qualquer framework de ML de código aberto no Databricks: Scikit-learn, XGBoost, LightGBM, PyTorch, TensorFlow, Hugging Face Transformers, Ray e muito mais. O MLflow ou suas ferramentas personalizadas podem armazenar artefatos de modelo em formatos abertos que podem ser exportados e executados fora do Databricks.
MLflow é de código aberto, criado pelo Databricks e usado por mais de 10.000 organizações. Seus dados de acompanhamento de experimento, artefatos de modelo e definições de pipeline são armazenados em formatos abertos.
A governança de dados e IA é desenvolvida sobre as APIs de código aberto do Unity Catalog, e o armazenamento de dados é baseado no formato aberto do Delta Lake. Seus dados de recurso e conjuntos de dados de treinamento permanecem em arquivos abertos e portáteis.