Pular para o conteúdo principal

Conceitos: ciência de dados e Machine Learning na Databricks

Ciência de dados e machine learning (DS e ML) extraem percepções e constroem modelos preditivos a partir de dados. DS e ML incluem exploração e modelagem interativas e sistemas de produção automatizados. ML clássico inclui técnicas como classificação, regressão, detecção de anomalia, previsão e recomendação.

Métodos modernos de aprendizagem profunda e de AI generativa (GenAI) são tecnicamente tipos de ML. Esta seção aborda aprendizagem profunda. Para IA generativa, consulte Conceitos: IA generativa na Databricks.

O ciclo de vida da ML

O ciclo de vida do ML abrange a jornada de ponta a ponta desde dados brutos até um modelo de produção e de volta por meio de monitoramento e retreinamento. Os principais estágios incluem:

  1. Defina o caso de uso ao definir o alvo de previsão, as métricas de sucesso e os requisitos de produção.
  2. Execute a análise exploratória de dados (EDA) para entender distribuições de dados, sinais preditivos e problemas de qualidade de dados antes da modelagem.
  3. Prepare dados e recursos, gerenciados em um repositório de recursos.
  4. Treinar modelos e acompanhar experimentos , registrando metadados de experimentos para análise e para implantação.
  5. Avaliação da qualidade do modelo contra dados retidos e critérios das partes interessadas.
  6. Registrar, preparar e testar modelos antes de promover para produção.
  7. Implementar em produção em endpoints em tempo real ou jobs de inferência em lotes.
  8. Monitorar e retreinar para adaptar modelos a dados em constante mudança ou comportamento do usuário.

Veja Machine learning lifecycle para um guia de cada etapa.

Desenvolvimento e operações assistidos por AI

A Databricks tem o Genie Code, um assistente de AI integrado em notebooks e no workspace. Utilize-o para desenvolvimento, depuração e operações contínuas, valendo-se de seu conhecimento especializado do contexto de sua empresa. Ver Usar o Genie Code para ciência de dados.

Você pode usar o Genie Code a cada passo do seu fluxo de trabalho:

Também é possível usar ferramentas de codificação de terceiros para desenvolver e manter ML pipelines no Databricks. Consulte Habilidades do agente para assistentes de codificação de IA.

O que é uma plataforma de ML?

Uma plataforma de ML é a infraestrutura, o ferramental e a camada de governança combinados que suportam todo o ciclo de vida de ML, desde dados brutos até modelos de produção. Uma plataforma de ML bem projetada conecta engenharia de dados, ciência de dados interativa e ML de produção em um único sistema governado.

Os principais componentes incluem:

  • Ativos de dados como arquivos, tabelas, pipelines de processamento e repositórios de recursos
  • Ferramentas de experimentação como notebooks e visualizações, com colaboração simples e assistência de AI.
  • Infraestrutura de treinamento com ambientes personalizáveis e recursos de compute flexíveis
  • Implantação e infraestrutura de monitoramento para serviço em lote e em tempo real, com dashboards de produção e alertas
  • MLOps e ferramentas de governança para orquestração, CI/CD, linhagem, gerenciamento de acesso e registro de auditoria

Principais recursos de governança incluem:

Consulte também recursos de ciência de dados e ML da Databricks e arquitetura Databricks.

ML, aprendizagem profunda e GenAI

As fronteiras entre machine learning (ML), aprendizagem profunda (DL) e AI generativa (GenAI) podem ser tênues. Este guia se concentra em ML e aprendizagem profunda, mas os seguintes recursos da plataforma suportam todos os três paradigmas.

Saiba mais