Capacidades de ciência de dados e ML da Databricks

A Databricks possui uma plataforma unificada para todo o ciclo de vida da ciência de dados (DS) e do machine learning (ML), desde a ingestão de dados brutos, passando pela engenharia de recursos, treinamento de modelos, implantação e monitoramento de produção. A Databricks integra-se com estruturas de ML de código aberto populares, adicionando governança de nível corporativo, observabilidade e ferramentas operacionais, coletivamente conhecidos como MLOps.

Esta página lista os principais recursos de DS e ML, organizados por estágio de fluxo de trabalho.

Análise exploratória de dados

Databricks simplifica a análise exploratória de dados (EDA) fornecendo ferramentas interativas, colaborativas e assistidas por AI para cientistas de dados. Cientistas de dados podem explorar dados usando chat de linguagem natural, UIs ou código, e eles podem colaborar usando tanto a coedição em tempo real quanto o compartilhamento de código baseado em Git. Genie Code pode realizar EDA totalmente automatizada ou atuar como um assistente interativo.

Categoria	Recursos
Interface do usuário	Notebooks oferecem espaços colaborativos para exploração, visualização e documentação para EDA. Painéis fornecem EDA com base em SQL e visualização. Genie Chat tem uma interface de linguagem natural para fazer perguntas de dados.
Colaboração	Notebooks, painéis e outros ativos do workspace podem ser todos compartilhados e são governados pelas permissões do workspace. Consulte, por exemplo, Colaborar usando Notebook do Databricks. Notebooks e pastas Git permitem controle de versão baseado em Git e colaboração.
Assistentes de AI	O Genie Code pode realizar EDA totalmente automatizada ou atuar como um assistente interativo. Habilidades de agente para assistentes de codificação de AI aumentam o desempenho de assistentes de terceiros que escrevem código para o Databricks.

Categoria	Recursos
Interface do usuário	Notebooks oferecem espaços colaborativos para exploração, visualização e documentação para EDA. Painéis fornecem EDA com base em SQL e visualização. Genie Chat tem uma interface de linguagem natural para fazer perguntas de dados.
Colaboração	Notebooks, painéis e outros ativos do workspace podem ser todos compartilhados e são governados pelas permissões do workspace. Consulte, por exemplo, Colaborar usando Notebook do Databricks. Notebooks e pastas Git permitem controle de versão baseado em Git e colaboração.
Assistentes de AI	O Genie Code pode realizar EDA totalmente automatizada ou atuar como um assistente interativo. Habilidades de agente para assistentes de codificação de AI aumentam o desempenho de assistentes de terceiros que escrevem código para o Databricks.

Preparar e disponibilizar recursos

O Databricks simplifica os dados para ML unificando a governança de dados e cargas de trabalho de ML. Com todos os dados gerenciados sob o Unity Catalog com controles de acesso refinados, é possível ajustar os limites de engenharia de dados e ML para se adequar à sua organização. Os dados podem ser preparados para ML usando quaisquer ferramentas de engenharia de dados, como LakeFlow Pipelines. Os recursos são gerenciados em uma Feature Store para veiculação em lote e em tempo real, com uma única fonte de verdade governada para recursos.

Genie Code acelera o descobrimento de dados e a preparação ao navegar pelo Unity Catalog para descobrir tabelas relevantes, sugerindo transformações de recursos e gerando código para ingestão e pipelines de recursos.

Tipo de recurso	Recursos
Recursos em lote	Tabelas de recursos no Unity Catalog armazenam recursos pré-computados em lotes com linhagem e governança automáticas. As equipes descobrem e reutilizam recursos existentes em vez de reconstruir pipelines do zero. Views de Recursos fornecem uma nova API para definir recursos que podem então ser usados para compute de recursos em tempo real ou em lotes.
Recursos em tempo real	Para recursos pré-computados, repositórios de recursos online fornecem tabelas de recursos para casos de uso de disponibilização de modelos em tempo real. Quando as entradas de featurização estão disponíveis apenas no momento da veiculação, Feature Serving tem computação de recursos sob demanda para complementar as tabelas de recursos. Recursos são definidos como funções, em vez de pré-calculados. Views de Recursos fornecem uma nova API para definir recursos que podem então ser usados para compute de recursos em tempo real ou em lotes.
Dados não estruturados	AI Search permite servir dados não estruturados e executar busca semântica.

Tipo de recurso	Recursos
Recursos em lote	Tabelas de recursos no Unity Catalog armazenam recursos pré-computados em lotes com linhagem e governança automáticas. As equipes descobrem e reutilizam recursos existentes em vez de reconstruir pipelines do zero. Views de Recursos fornecem uma nova API para definir recursos que podem então ser usados para compute de recursos em tempo real ou em lotes.
Recursos em tempo real	Para recursos pré-computados, repositórios de recursos online fornecem tabelas de recursos para casos de uso de disponibilização de modelos em tempo real. Quando as entradas de featurização estão disponíveis apenas no momento da veiculação, Feature Serving tem computação de recursos sob demanda para complementar as tabelas de recursos. Recursos são definidos como funções, em vez de pré-calculados. Views de Recursos fornecem uma nova API para definir recursos que podem então ser usados para compute de recursos em tempo real ou em lotes.
Dados não estruturados	AI Search permite servir dados não estruturados e executar busca semântica.

Treinar modelos de ML

Databricks possui ferramentas flexíveis para treinamento de modelos de ML e aprendizagem profunda. Ambientes pré-configurados e personalizáveis permitem o uso de bibliotecas de ML personalizadas, e recursos de compute serverless acelerados por CPU e GPU permitem o dimensionamento horizontal e vertical sob demanda. O Genie Code oferece AutoML inteligente, aceitando solicitações em linguagem natural e construindo um fluxo de trabalho completo com vários Notebook para feature engineering, treinamento, ajuste, avaliação e implantação.

Categoria	Recursos
Tipos de ML	Databricks suporta todos os tipos de ML, incluindo: ML Clássico: Aprendizagem supervisionada e não supervisionada com scikit-learn, XGBoost, LightGBM, Apache Spark MLlib e outros frameworks de ML Aprendizagem profunda: treinamento de rede neural com PyTorch, TensorFlow e Hugging Face Transformers, incluindo treinamento distribuído em várias GPUs Ajuste de hiperparâmetros: Busca automatizada em espaços de algoritmos e hiperparâmetros utilizando ferramentas como Optuna and Ray Para IA generativa, consulte recursos de IA generativa da Databricks.
Compute	Compute serverless começa instantaneamente para notebooks interativos e fluxos de trabalho agendados, com dimensionamento automático e sem gerenciamento de clusters. É compatível com clusters acelerados por CPU e GPU. Compute Classic tem gerenciamento de máquina única e de clusters para cargas de trabalho de CPU e GPU.
Ambientes e bibliotecas	Ambientes de compute serverless oferecem ambientes base que podem ser totalmente personalizados para ML. Para compute de GPU serverless, o AI Runtime fornece ambientes pré-configurados para treinamento e inferência baseados em GPU. Para o compute clássico, o Databricks Runtime for Machine Learning oferece ambientes de cluster pré-configurados com as principais bibliotecas de ML pré-instaladas e testadas em conjunto, tanto para clusters acelerados por CPU quanto por GPU.
Assistentes de codificação de IA	Genie Code pode descobrir dados do Unity Catalog, gerar notebooks de ML e solucionar problemas de pipelines. Habilidades de agente para assistentes de codificação de AI aumentam o desempenho de assistentes de terceiros que escrevem código para o Databricks.

Categoria	Recursos
Tipos de ML	Databricks suporta todos os tipos de ML, incluindo: ML Clássico: Aprendizagem supervisionada e não supervisionada com scikit-learn, XGBoost, LightGBM, Apache Spark MLlib e outros frameworks de ML Aprendizagem profunda: treinamento de rede neural com PyTorch, TensorFlow e Hugging Face Transformers, incluindo treinamento distribuído em várias GPUs Ajuste de hiperparâmetros: Busca automatizada em espaços de algoritmos e hiperparâmetros utilizando ferramentas como Optuna and Ray Para IA generativa, consulte recursos de IA generativa da Databricks.
Compute	Compute serverless começa instantaneamente para notebooks interativos e fluxos de trabalho agendados, com dimensionamento automático e sem gerenciamento de clusters. É compatível com clusters acelerados por CPU e GPU. Compute Classic tem gerenciamento de máquina única e de clusters para cargas de trabalho de CPU e GPU.
Ambientes e bibliotecas	Ambientes de compute serverless oferecem ambientes base que podem ser totalmente personalizados para ML. Para compute de GPU serverless, o AI Runtime fornece ambientes pré-configurados para treinamento e inferência baseados em GPU. Para o compute clássico, o Databricks Runtime for Machine Learning oferece ambientes de cluster pré-configurados com as principais bibliotecas de ML pré-instaladas e testadas em conjunto, tanto para clusters acelerados por CPU quanto por GPU.
Assistentes de codificação de IA	Genie Code pode descobrir dados do Unity Catalog, gerar notebooks de ML e solucionar problemas de pipelines. Habilidades de agente para assistentes de codificação de AI aumentam o desempenho de assistentes de terceiros que escrevem código para o Databricks.

Rastrear e gerenciar experimentos

O MLflow gerenciado pela Databricks fornece a base para um desenvolvimento de ML reproduzível e auditável. Suas integrações com o Unity Catalog e o Git fornecem acompanhamento e linhagem para ativos de dados e de código. Cada versão de modelo no registro vincula-se à execução de treinamento, dataset, ambiente e commit git que a produziu, fornecendo uma trilha de auditoria completa para qualquer modelo implantado.

Categoria	Recursos
Acompanhamento de experimentos	Acompanhamento do MLflow registra parâmetros, métricas e artefatos para cada execução de treinamento. Compare as execuções na interface do usuário do MLflow para identificar a configuração de melhor desempenho.
Registro de modelos	Modelos no Unity Catalog oferece um registro de modelos MLflow integrado com o Unity Catalog. Artefatos de modelo com versão são governados com aliases de ciclo de vida (`Staging`, `Production`), controle de acesso, linhagem e compartilhamento entre-workspaces.
Reprodutibilidade	Notebooks e código podem ser versionados usando pastas Git do Databricks e integrados com qualquer provedor Git.

Categoria	Recursos
Acompanhamento de experimentos	Acompanhamento do MLflow registra parâmetros, métricas e artefatos para cada execução de treinamento. Compare as execuções na interface do usuário do MLflow para identificar a configuração de melhor desempenho.
Registro de modelos	Modelos no Unity Catalog oferece um registro de modelos MLflow integrado com o Unity Catalog. Artefatos de modelo com versão são governados com aliases de ciclo de vida (`Staging`, `Production`), controle de acesso, linhagem e compartilhamento entre-workspaces.
Reprodutibilidade	Notebooks e código podem ser versionados usando pastas Git do Databricks e integrados com qualquer provedor Git.

Implantar e servir modelos

Databricks oferece suporte a inferência em lotes e serviço em tempo real. A inferência em lotes aplica modelos de forma eficiente a grandes datasets, enquanto o serviço em tempo real fornece modelos como endpoints de API de baixa latência. Genie Code pode tanto gerar código para implantação de modelo quanto diagnosticar problemas e o desempenho para endpoints de servindo modelo.

Padrão de disponibilização	Recursos
Inferência de batch	`ai_query` fornece inferência eficiente em lotes para modelos personalizados implantados como endpoints do Model Serving. Você também pode usar código personalizado com UDFs do Apache Spark (exemplo) ou `mlflow.pyfunc` para inferência em lote.
Serviço em tempo real	Model Serving oferece endpoints REST gerenciados de baixa latência e alta disponibilidade com dimensionamento automático serverless. Isso oferece suporte para disponibilização de CPU e GPU para qualquer framework de ML, e você pode usar o Genie para avaliar e solucionar problemas de endpoints de disponibilização.
Inferência nativa de SQL	Funções de AI fornecem previsões de ML acessíveis por SQL para previsão, detecção de anomalia e análise de drivers, sem a necessidade de Python ou implantação de modelo. Para modelos personalizados, a função de AI `ai_query` fornece inferência eficiente em lotes apoiada por endpoints de Model Serving.

Padrão de disponibilização	Recursos
Inferência de batch	`ai_query` fornece inferência eficiente em lotes para modelos personalizados implantados como endpoints do Model Serving. Você também pode usar código personalizado com UDFs do Apache Spark (exemplo) ou `mlflow.pyfunc` para inferência em lote.
Serviço em tempo real	Model Serving oferece endpoints REST gerenciados de baixa latência e alta disponibilidade com dimensionamento automático serverless. Isso oferece suporte para disponibilização de CPU e GPU para qualquer framework de ML, e você pode usar o Genie para avaliar e solucionar problemas de endpoints de disponibilização.
Inferência nativa de SQL	Funções de AI fornecem previsões de ML acessíveis por SQL para previsão, detecção de anomalia e análise de drivers, sem a necessidade de Python ou implantação de modelo. Para modelos personalizados, a função de AI `ai_query` fornece inferência eficiente em lotes apoiada por endpoints de Model Serving.

Avalie e monitore

Databricks fornece avaliação flexível para treinamento e monitoramento contínuo para produção. Logs de serving em tempo real para tabelas de inferência governadas no Unity Catalog, e monitoramento de qualidade de dados fornece monitoramento com métricas personalizadas, dashboards e alertas.

Categoria	Recursos
Avaliação	A avaliação de ML do MLflow pode ser usada para definir métricas para registrar no MLflow, ou o acompanhamento do MLflow pode registrar métricas calculadas usando sua estrutura personalizada. Genie Code pode auxiliar na seleção de métricas de avaliação e na escrita de código de avaliação.
Registro de previsão	Tabelas de Inferência fazem log de solicitações e respostas de serviço, permitindo monitoramento, analítica e a construção de conjuntos de treinamento.
Monitoramento e alertas	O monitoramento da qualidade dos dados acompanha a qualidade dos dados, o drift e as métricas personalizadas, com detecção de anomalia integrada e perfil de dados integrado. O monitoramento da qualidade de dados fornece uma interface do usuário de monitoramento, e você pode criar dashboards personalizados a partir de tabelas de monitoramento. Você pode configurar alertas para detecção de anomalia para escalar incidentes rapidamente.

Categoria	Recursos
Avaliação	A avaliação de ML do MLflow pode ser usada para definir métricas para registrar no MLflow, ou o acompanhamento do MLflow pode registrar métricas calculadas usando sua estrutura personalizada. Genie Code pode auxiliar na seleção de métricas de avaliação e na escrita de código de avaliação.
Registro de previsão	Tabelas de Inferência fazem log de solicitações e respostas de serviço, permitindo monitoramento, analítica e a construção de conjuntos de treinamento.
Monitoramento e alertas	O monitoramento da qualidade dos dados acompanha a qualidade dos dados, o drift e as métricas personalizadas, com detecção de anomalia integrada e perfil de dados integrado. O monitoramento da qualidade de dados fornece uma interface do usuário de monitoramento, e você pode criar dashboards personalizados a partir de tabelas de monitoramento. Você pode configurar alertas para detecção de anomalia para escalar incidentes rapidamente.

MLOps e governança

A Databricks fornece um conjunto completo de ferramentas para operações de ML (MLOps) e governança. MLOps Stacks fornece padrões para permitir a promoção automatizada e repetível do desenvolvimento para a produção usando Infrastructure-as-Code. Dados, recursos, modelos e endpoints são totalmente governados por Unity Catalog e AI Gateway.

Categoria	Recursos
CI/CD para ML	Stacks de MLOps, construídos sobre Bundles de Automação Declarativa, fornecem gerenciamento e implantação baseados em código de infraestrutura de ML e fluxos de trabalho. Isto inclui padrões de CI/CD para automatizar o treinamento, a avaliação e a implantação.
Orquestração de fluxo de trabalho	Lakeflow Jobs orquestra fluxos de trabalho de ML de várias etapas como pipelines programados ou acionados.
Governança de ativos de dados e modelos	Unity Catalog fornece governança unificada para dados, recursos e modelos registrados. Controles de acesso refinados, acompanhamento de linhagem e logs de auditoria aplicam-se a todos os ativos.
Governança de endpoint de modelo	O AI Gateway fornece governança centralizada e monitoramento para endpoints de modelo, incluindo limites de taxa, acompanhamento de uso e registro de carga útil.

Categoria	Recursos
CI/CD para ML	Stacks de MLOps, construídos sobre Bundles de Automação Declarativa, fornecem gerenciamento e implantação baseados em código de infraestrutura de ML e fluxos de trabalho. Isto inclui padrões de CI/CD para automatizar o treinamento, a avaliação e a implantação.
Orquestração de fluxo de trabalho	Lakeflow Jobs orquestra fluxos de trabalho de ML de várias etapas como pipelines programados ou acionados.
Governança de ativos de dados e modelos	Unity Catalog fornece governança unificada para dados, recursos e modelos registrados. Controles de acesso refinados, acompanhamento de linhagem e logs de auditoria aplicam-se a todos os ativos.
Governança de endpoint de modelo	O AI Gateway fornece governança centralizada e monitoramento para endpoints de modelo, incluindo limites de taxa, acompanhamento de uso e registro de carga útil.

Suporte a código aberto

Databricks fornece suporte completo para o ecossistema de ML de código aberto.

Você pode usar qualquer framework de ML de código aberto no Databricks: Scikit-learn, XGBoost, LightGBM, PyTorch, TensorFlow, Hugging Face Transformers, Ray e muito mais. O MLflow ou suas ferramentas personalizadas podem armazenar artefatos de modelo em formatos abertos que podem ser exportados e executados fora do Databricks.

MLflow é de código aberto, criado pelo Databricks e usado por mais de 10.000 organizações. Seus dados de acompanhamento de experimento, artefatos de modelo e definições de pipeline são armazenados em formatos abertos.

A governança de dados e IA é desenvolvida sobre as APIs de código aberto do Unity Catalog, e o armazenamento de dados é baseado no formato aberto do Delta Lake. Seus dados de recurso e conjuntos de dados de treinamento permanecem em arquivos abertos e portáteis.

Análise exploratória de dados​

Preparar e disponibilizar recursos​

Treinar modelos de ML​

Rastrear e gerenciar experimentos​

Implantar e servir modelos​

Avalie e monitore​

MLOps e governança​

Suporte a código aberto​

Recursos adicionais​