Conceitos: ciência de dados e Machine Learning na Databricks
Ciência de dados e machine learning (DS e ML) extraem percepções e constroem modelos preditivos a partir de dados. DS e ML incluem exploração e modelagem interativas e sistemas de produção automatizados. ML clássico inclui técnicas como classificação, regressão, detecção de anomalia, previsão e recomendação.
Métodos modernos de aprendizagem profunda e de AI generativa (GenAI) são tecnicamente tipos de ML. Esta seção aborda aprendizagem profunda. Para IA generativa, consulte Conceitos: IA generativa na Databricks.
O ciclo de vida da ML
O ciclo de vida do ML abrange a jornada de ponta a ponta desde dados brutos até um modelo de produção e de volta por meio de monitoramento e retreinamento. Os principais estágios incluem:
- Defina o caso de uso ao definir o alvo de previsão, as métricas de sucesso e os requisitos de produção.
- Execute a análise exploratória de dados (EDA) para entender distribuições de dados, sinais preditivos e problemas de qualidade de dados antes da modelagem.
- Prepare dados e recursos, gerenciados em um repositório de recursos.
- Treinar modelos e acompanhar experimentos , registrando metadados de experimentos para análise e para implantação.
- Avaliação da qualidade do modelo contra dados retidos e critérios das partes interessadas.
- Registrar, preparar e testar modelos antes de promover para produção.
- Implementar em produção em endpoints em tempo real ou jobs de inferência em lotes.
- Monitorar e retreinar para adaptar modelos a dados em constante mudança ou comportamento do usuário.
Veja Machine learning lifecycle para um guia de cada etapa.
Desenvolvimento e operações assistidos por AI
A Databricks tem o Genie Code, um assistente de AI integrado em notebooks e no workspace. Utilize-o para desenvolvimento, depuração e operações contínuas, valendo-se de seu conhecimento especializado do contexto de sua empresa. Ver Usar o Genie Code para ciência de dados.
Você pode usar o Genie Code a cada passo do seu fluxo de trabalho:
- Comece com Genie chat para descobrir modelos, dados e recursos relevantes em seu workspace e Unity Catalog.
- Use o Genie Code para prototipar pipelines para featureização, treinamento e ajuste de modelos, avaliação e implantação.
- Analise os endpoints de servindo modelo com o Genie Code para diagnosticar e investigar problemas em produção.
Também é possível usar ferramentas de codificação de terceiros para desenvolver e manter ML pipelines no Databricks. Consulte Habilidades do agente para assistentes de codificação de IA.
O que é uma plataforma de ML?
Uma plataforma de ML é a infraestrutura, o ferramental e a camada de governança combinados que suportam todo o ciclo de vida de ML, desde dados brutos até modelos de produção. Uma plataforma de ML bem projetada conecta engenharia de dados, ciência de dados interativa e ML de produção em um único sistema governado.
Os principais componentes incluem:
- Ativos de dados como arquivos, tabelas, pipelines de processamento e repositórios de recursos
- Ferramentas de experimentação como notebooks e visualizações, com colaboração simples e assistência de AI.
- Infraestrutura de treinamento com ambientes personalizáveis e recursos de compute flexíveis
- Implantação e infraestrutura de monitoramento para serviço em lote e em tempo real, com dashboards de produção e alertas
- MLOps e ferramentas de governança para orquestração, CI/CD, linhagem, gerenciamento de acesso e registro de auditoria
Principais recursos de governança incluem:
- Governança unificada de dados e ativos de ML. Saiba mais em O que é o Unity Catalog?.
- Governança unificada dos endpoints de modelo. Saiba mais em Unity AI Gateway para endpoints de disponibilização.
- Abordagem de segurança unificada. Saiba mais em Segurança de AI da Databricks.
- Administração unificada de dados e ferramentas de ML. Saiba mais em Administração.
Consulte também recursos de ciência de dados e ML da Databricks e arquitetura Databricks.
ML, aprendizagem profunda e GenAI
As fronteiras entre machine learning (ML), aprendizagem profunda (DL) e AI generativa (GenAI) podem ser tênues. Este guia se concentra em ML e aprendizagem profunda, mas os seguintes recursos da plataforma suportam todos os três paradigmas.
-
Model Serving suporta ML clássico, aprendizagem profunda e modelos GenAI personalizados para inferência em tempo real e em lote.
-
ai_querysuporta consultas SQL e cargas de trabalho de inferência de lotes para todos os três paradigmas. -
Habilitado para GPU, o Databricks Runtime para Machine Learning oferece suporte a treinamento e ajuste fino em todos os três paradigmas.
-
acompanhamento de experimentos do MLflow rastreia execuções e experimentos para todos os três paradigmas.
-
A Databricks AI Search fornece dados não estruturados para todos os três paradigmas.
Saiba mais
- Ciclo de vida de ML - estágios e melhores práticas do ciclo de vida de ML
- Recursos de ciência de dados e ML da Databricks - Recursos de ML da Databricks por estágio do fluxo de trabalho
- AI na Databricks - Casos de uso, clientes e outros recursos