Avaliadores baseados em código
Os sistemas de pontuação baseados em código são funções em Python que você cria. Utilize-os quando os juízes integrados LLM e os juízes personalizados LLM não atenderem às suas necessidades de avaliação. Por exemplo, os avaliadores baseados em código permitem que você:
- Defina uma métrica de avaliação heurística ou programática personalizada.
- Personalize a forma como os dados de rastreamento são mapeados para um juizDatabricks integrada LLM.
- Utilize seu próprio sistema de avaliação de mestrado LLM LLM ) (em vez de um sistema hospedado Databrickspara esse fim).
- Outros casos de uso em que você precisa de mais flexibilidade e controle do que os oferecidos por juízes LLM personalizados.
Você pode usar o mesmo sistema de pontuação baseado em código para avaliação em desenvolvimento e monitoramento em produção.
Escolha um estilo de definição
O MLflow suporta duas maneiras de definir um avaliador baseado em código:
Abordagem | Use quando | Produção |
|---|---|---|
| Na maioria dos casos. Ponto de partida recomendado. | Compatível (quando definido e registrado a partir de um Notebook Databricks ). |
Classe | Você precisa de avaliadores com estado, inicialização complexa ou campos Pydantic. | Não compatível. |
:::nota Compatibilidade com monitoramento de produção
O monitoramento de produção suporta juízes LLM integrados e funções decoradas @scorer . Subclasses baseadas em classes Scorer não são suportadas para monitoramento de produção. Se você precisar de avaliadores com estado em produção, use o decorador @scorer e gerencie o estado dentro do corpo da função.
@scorerAs funções decoradas usadas no monitoramento de produção devem ser definidas e registradas a partir de um NotebookDatabricks . O serviço de monitoramento serializa o código da função para execução remota, e essa serialização requer o ambiente Notebook. Para obter detalhes, consulte Usar funções de pontuação personalizadas.
:::
Próximas etapas
- Desenvolva marcadores baseados em código — ou acompanhe o fluxo de trabalho de desenvolvimento para marcadores baseados em código.
- Exemplos de sistemas de pontuação baseados em código — Exemplos práticos que abrangem padrões comuns de sistemas de pontuação baseados em código.
- Referência do avaliador baseado em código — Referência para
@scorereScorer, incluindo assinaturas, entradas, saídas, nomenclatura de métricas, tratamento de erros e acesso a segredos. - Avalie o GenAI durante o desenvolvimento — Entenda como
mlflow.genai.evaluate()usa seus avaliadores. - Monitore apps GenAI em produção — implantei scorers para monitoramento contínuo.