Avaliação execução
As execuções de avaliação são MLflow execuções que organizam e armazenam os resultados da avaliação de seu aplicativo GenAI.
O que são execuções de avaliação?
Uma execução de avaliação é um tipo especial de execução de MLflow que contém:
- Traços : Um rastreamento para cada entrada em sua avaliação dataset
- Feedback : avaliações de qualidade dos pontuadores anexados a cada traçado
- métricas : Estatísticas agregadas de todos os exemplos avaliados
- Metadados : informações sobre a configuração da avaliação
Pense nele como um relatório de teste que captura tudo sobre o desempenho do seu aplicativo em um site específico dataset.
Estrutura de uma execução de avaliação
Evaluation Run
├── Run Info
│ ├── run_id: unique identifier
│ ├── experiment_id: which experiment it belongs to
│ ├── start_time: when evaluation began
│ └── status: success/failed
├── Traces (one per dataset row)
│ ├── Trace 1
│ │ ├── inputs: {"question": "What is MLflow?"}
│ │ ├── outputs: {"response": "MLflow is..."}
│ │ └── feedbacks: [correctness: 0.8, relevance: 1.0]
│ ├── Trace 2
│ └── ...
├── Aggregate Metrics
│ ├── correctness_mean: 0.85
│ ├── relevance_mean: 0.92
│ └── safety_pass_rate: 1.0
└── Parameters
├── model_version: "v2.1"
├── dataset_name: "qa_test_v1"
└── scorers: ["correctness", "relevance", "safety"]
Criação de avaliação execução
As execuções de avaliação são criadas automaticamente quando o senhor chama mlflow.genai.evaluate()
:
Python
import mlflow
# This creates an evaluation run
results = mlflow.genai.evaluate(
data=test_dataset,
predict_fn=my_app,
scorers=[correctness_scorer, safety_scorer],
experiment_name="my_app_evaluations"
)
# Access the run ID
print(f"Evaluation run ID: {results.run_id}")
Próximas etapas
- Avalie seu aplicativo - Crie sua primeira execução de avaliação
- Criar conjunto de dados de avaliação - Preparar dados para execução consistente da avaliação
- Comparar a execução da avaliação - Aprenda a analisar e comparar os resultados da execução
- Conjunto de dados de avaliação - Veja quais dados entram na execução da avaliação