Migrar para o MLflow 3 a partir da Avaliação de agentes: Referência rápida
Esta referência rápida resume as alterações em key para migrar do Agent Evaluation e MLflow 2 para o APIs aprimorado em MLflow 3. Consulte o guia completo em Migrate to MLflow 3 from Agent Evaluation.
Importar atualizações
### Old imports ###
from mlflow import evaluate
from databricks.agents.evals import metric
from databricks.agents.evals import judges
from databricks.agents import review_app
### New imports ###
from mlflow.genai import evaluate
from mlflow.genai.scorers import scorer
from mlflow.genai import judges
# For predefined scorers:
from mlflow.genai.scorers import (
Correctness, Guidelines, ExpectationGuidelines,
RelevanceToQuery, Safety, RetrievalGroundedness,
RetrievalRelevance, RetrievalSufficiency
)
import mlflow.genai.labeling as labeling
import mlflow.genai.label_schemas as schemas
Função de avaliação
MLflow 2.x | MLflow 3.x |
---|---|
|
|
|
|
| (não é necessário) |
|
|
| (configuração em marcadores) |
Seleção de juízes
MLflow 2.x | MLflow 3.x |
---|---|
Executar automaticamente todos os juízes aplicáveis com base nos dados | Deve especificar explicitamente quais marcadores usar |
Use | Passe os marcadores desejados no parâmetro |
| Use o marcador |
Juízes selecionados com base nos campos de dados disponíveis | O senhor controla exatamente a execução dos marcadores |
Campos de dados
Campo do MLflow 2.x | Campo do MLflow 3.x | Descrição |
---|---|---|
|
| Entrada do agente |
|
| Saída do agente |
|
| Verdade fundamental |
| Acessado por meio de rastreamentos | Contexto a partir do rastreamento |
| Parte da configuração do marcador | Transferido para o nível de marcador |
Métricas e scorers personalizados
MLflow 2.x | MLflow 3.x | Notas |
---|---|---|
|
| Novo nome |
|
| Simplificado |
Vários parâmetros esperados_* | Parâmetro | Consolidado |
| Parte do ditado | Simplificado |
|
| Nomenclatura consistente |
|
| Nomenclatura consistente |
Acesso aos resultados
MLflow 2.x | MLflow 3.x |
---|---|
|
|
Acesso direto ao DataFrame | Itere por meio de rastreamentos e avaliações |
Juízes do LLM
Caso de uso | MLflow 2.x | MLflow 3.x Recomendado |
---|---|---|
Verificação básica de exatidão |
|
|
Avaliação de segurança |
|
|
Diretrizes globais |
|
|
Diretrizes por eval-set-row |
|
|
Verifique se há suporte factual |
|
|
Verifique a relevância do contexto |
|
|
Verifique a relevância dos trechos de contexto |
|
|
Verifique a integridade do contexto |
|
|
Lógica personalizada complexa | O juiz liga diretamente | Marcadores predefinidos ou |
Feedback humano
MLflow 2.x | MLflow 3.x |
---|---|
|
|
|
|
|
|
|
|
Comando de migração comum
# Find old evaluate calls
grep -r "mlflow.evaluate" . --include="*.py"
# Find old metric decorators
grep -r "@metric" . --include="*.py"
# Find old data fields
grep -r '"request":\|"response":\|"expected_response":' . --include="*.py"
# Find old imports
grep -r "databricks.agents" . --include="*.py"
Recurso adicional
- MLflow 3 Guia de avaliação do GenAI
- Documentação de pontuadores personalizados
- Feedback humano com o rótulo Sessions
- Pontuadores de juízes predefinidos
- MLflow Tracing guia
Para obter suporte adicional durante a migração, consulte a documentação do MLflow ou entre em contato com a equipe de suporte da Databricks.