Pular para o conteúdo principal

Criação de avaliadores LLM personalizados

Embora os avaliadores de LLM predefinidos do MLflow ofereçam excelentes pontos de partida para dimensões de qualidade comuns em aplicativos mais simples, o senhor precisará criar avaliadores de LLM personalizados à medida que o seu aplicativo se tornar mais complexo e ajustar os critérios de avaliação para atender aos requisitos comerciais específicos e diferenciados do seu caso de uso e alinhar-se com o julgamento do seu especialista no domínio. O MLflow oferece maneiras robustas e flexíveis de criar juízes LLM personal izados, adaptados a esses requisitos exclusivos.

Abordagens para criar juízes personalizados

O MLflow oferece duas abordagens para a criação de juízes personalizados. Recomendamos começar com juízes baseados em diretrizes e usar juízes baseados em instruções se você precisar de mais controle ou não conseguir escrever seus critérios de avaliação como diretrizes de aprovação/reprovação. Os juízes baseados em diretrizes têm a vantagem distinta de serem fáceis de explicar às partes interessadas da empresa e, muitas vezes, podem ser escritos diretamente por especialistas do domínio.

Pontuadores baseados em diretrizes (sugerimos começar aqui)

  • Ideal para: Avaliações baseadas em um conjunto claro de critérios específicos de linguagem natural, enquadrados como condições de aprovação/reprovação. Ideal para verificar compliance com regras, guia de estilo ou inclusão/exclusão de informações.
  • Como funciona: você fornece um conjunto de regras em linguagem simples que se referem a entradas ou saídas específicas do seu aplicativo, por exemplo, The response must be polite. Em seguida, um LLM determina se a diretriz é aprovada ou reprovada e apresenta uma justificativa para o motivo.

Começar com orientações "

Pontuadores baseados em prompts

  • Ideal para: Avaliações complexas e diferenciadas, nas quais você precisa de controle total sobre a solicitação do marcador ou precisa que o marcador especifique vários valores de saída, por exemplo, " great ", " ok ", " bad ".
  • Como funciona: O senhor fornece um padrão de prompt que define seus critérios de avaliação e tem espaços reservados para campos específicos no rastreamento do seu aplicativo. Você define as opções de saída que o marcador pode selecionar. Em seguida, um LLM seleciona a opção de saída apropriada e fornece uma justificativa para essa escolha.

Começar com juízes baseados em prompt "

Próximas etapas

Continue sua jornada com estas ações recomendadas e o tutorial.

Guia de referência

Explore a documentação detalhada dos conceitos e recursos mencionados neste guia.