Pular para o conteúdo principal

Avaliadores baseados em código

Os sistemas de pontuação baseados em código são funções em Python que você cria. Utilize-os quando os juízes integrados LLM e os juízes personalizados LLM não atenderem às suas necessidades de avaliação. Por exemplo, os avaliadores baseados em código permitem que você:

  • Defina uma métrica de avaliação heurística ou programática personalizada.
  • Personalize a forma como os dados de rastreamento são mapeados para um juizDatabricks integrada LLM.
  • Utilize seu próprio sistema de avaliação de mestrado LLM LLM ) (em vez de um sistema hospedado Databrickspara esse fim).
  • Outros casos de uso em que você precisa de mais flexibilidade e controle do que os oferecidos por juízes LLM personalizados.

Você pode usar o mesmo sistema de pontuação baseado em código para avaliação em desenvolvimento e monitoramento em produção.

Escolha um estilo de definição

O MLflow suporta duas maneiras de definir um avaliador baseado em código:

Abordagem

Use quando

Produção

@scorer decorador

Na maioria dos casos. Ponto de partida recomendado.

Compatível (quando definido e registrado a partir de um Notebook Databricks ).

ClasseScorer

Você precisa de avaliadores com estado, inicialização complexa ou campos Pydantic.

Não compatível.

:::nota Compatibilidade com monitoramento de produção

O monitoramento de produção suporta juízes LLM integrados e funções decoradas @scorer . Subclasses baseadas em classes Scorer não são suportadas para monitoramento de produção. Se você precisar de avaliadores com estado em produção, use o decorador @scorer e gerencie o estado dentro do corpo da função.

@scorerAs funções decoradas usadas no monitoramento de produção devem ser definidas e registradas a partir de um NotebookDatabricks . O serviço de monitoramento serializa o código da função para execução remota, e essa serialização requer o ambiente Notebook. Para obter detalhes, consulte Usar funções de pontuação personalizadas.

:::

Próximas etapas