Avaliadores baseados em código
Os sistemas de pontuação baseados em código são funções em Python que você cria. Utilize-os quando os juízes integrados LLM e os juízes personalizados LLM não atenderem às suas necessidades de avaliação. Por exemplo, os avaliadores baseados em código permitem que você:
- Defina uma métrica de avaliação heurística ou programática personalizada.
- Personalize a forma como os dados de rastreamento são mapeados para um juizDatabricks integrada LLM.
- Utilize seu próprio sistema de avaliação de mestrado LLM LLM ) (em vez de um sistema hospedado Databrickspara esse fim).
- Outros casos de uso em que você precisa de mais flexibilidade e controle do que os oferecidos por juízes LLM personalizados.
Você pode usar o mesmo sistema de pontuação baseado em código para avaliação em desenvolvimento e monitoramento em produção.
Escolha um estilo de definição
O MLflow suporta duas maneiras de definir um avaliador baseado em código:
Abordagem | Use quando | Produção |
|---|---|---|
| Na maioria dos casos. Ponto de partida recomendado. | Compatível (quando definido e registrado a partir de um Notebook Databricks ). |
Classe | Você precisa de avaliadores com estado, inicialização complexa ou campos Pydantic. | Não compatível. |
:::nota Compatibilidade com monitoramento de produção
O monitoramento de produção suporta juízes LLM integrados e funções decoradas @scorer . Subclasses baseadas em classes Scorer não são suportadas para monitoramento de produção. Se você precisar de avaliadores com estado em produção, use o decorador @scorer e gerencie o estado dentro do corpo da função.
@scorerAs funções decoradas usadas no monitoramento de produção devem ser definidas e registradas a partir de um NotebookDatabricks . O serviço de monitoramento serializa o código da função para execução remota, e essa serialização requer o ambiente Notebook. Para obter detalhes, consulte Usar funções de pontuação personalizadas.
:::
Recursos adicionais
-
Desenvolver avaliadores baseados em código — Dê o passo pelo fluxo de trabalho de desenvolvimento para avaliadores baseados em código.
-
Exemplos de avaliadores baseados em código – Exemplos práticos cobrindo padrões comuns de avaliadores baseados em código.
-
Avalie aplicativos GenAI durante o desenvolvimento – Entenda como
mlflow.genai.evaluate()usa seus avaliadores. -
Monitoramento de aplicativos GenAI em produção - Avaliadores implantados para monitoramento contínuo.
-
Referência de avaliador baseado em código — Referência para
@scorereScorer, incluindo assinaturas, entradas, saídas, nomeação de métricas, tratamento de erros e acesso a segredos.