Avaliadores baseados em código

Os sistemas de pontuação baseados em código são funções em Python que você cria. Utilize-os quando os juízes integrados LLM e os juízes personalizados LLM não atenderem às suas necessidades de avaliação. Por exemplo, os avaliadores baseados em código permitem que você:

Defina uma métrica de avaliação heurística ou programática personalizada.
Personalize a forma como os dados de rastreamento são mapeados para um juizDatabricks integrada LLM.
Utilize seu próprio sistema de avaliação de mestrado LLM LLM ) (em vez de um sistema hospedado Databrickspara esse fim).
Outros casos de uso em que você precisa de mais flexibilidade e controle do que os oferecidos por juízes LLM personalizados.

Você pode usar o mesmo sistema de pontuação baseado em código para avaliação em desenvolvimento e monitoramento em produção.

Escolha um estilo de definição

O MLflow suporta duas maneiras de definir um avaliador baseado em código:

Abordagem	Use quando	Produção
`@scorer` decorador	Na maioria dos casos. Ponto de partida recomendado.	Compatível (quando definido e registrado a partir de um Notebook Databricks ).
Classe`Scorer`	Você precisa de avaliadores com estado, inicialização complexa ou campos Pydantic.	Não compatível.

Abordagem	Use quando	Produção
`@scorer` decorador	Na maioria dos casos. Ponto de partida recomendado.	Compatível (quando definido e registrado a partir de um Notebook Databricks ).
Classe`Scorer`	Você precisa de avaliadores com estado, inicialização complexa ou campos Pydantic.	Não compatível.

:::nota Compatibilidade com monitoramento de produção

O monitoramento de produção suporta juízes LLM integrados e funções decoradas @scorer . Subclasses baseadas em classes Scorer não são suportadas para monitoramento de produção. Se você precisar de avaliadores com estado em produção, use o decorador @scorer e gerencie o estado dentro do corpo da função.

@scorerAs funções decoradas usadas no monitoramento de produção devem ser definidas e registradas a partir de um NotebookDatabricks . O serviço de monitoramento serializa o código da função para execução remota, e essa serialização requer o ambiente Notebook. Para obter detalhes, consulte Usar funções de pontuação personalizadas.

:::

Recursos adicionais

Desenvolver avaliadores baseados em código — Dê o passo pelo fluxo de trabalho de desenvolvimento para avaliadores baseados em código.
Exemplos de avaliadores baseados em código – Exemplos práticos cobrindo padrões comuns de avaliadores baseados em código.
Avalie aplicativos GenAI durante o desenvolvimento – Entenda como mlflow.genai.evaluate() usa seus avaliadores.
Monitoramento de aplicativos GenAI em produção - Avaliadores implantados para monitoramento contínuo.
Referência de avaliador baseado em código — Referência para @scorer e Scorer, incluindo assinaturas, entradas, saídas, nomeação de métricas, tratamento de erros e acesso a segredos.

Escolha um estilo de definição​

Recursos adicionais​

Escolha um estilo de definição

Recursos adicionais