Definir "qualidade": Conjuntos de avaliação

Este artigo descreve os conjuntos de avaliação e como eles ajudam a garantir a qualidade do seu aplicativo.

O que é um conjunto de avaliação?

Para medir a qualidade, o site Databricks recomenda a criação de um conjunto de avaliação de rótulo humano. Um conjunto de avaliação é um conjunto de consultas representativas e selecionadas, juntamente com respostas verdadeiras e (opcionalmente) os documentos de suporte corretos que devem ser recuperados. A contribuição humana é fundamental nesse processo, pois garante que o conjunto de avaliação reflita com precisão as expectativas e os requisitos dos usuários finais.

A curadoria de rótulos humanos pode ser um processo demorado. O senhor pode começar criando um conjunto de avaliação que inclua apenas perguntas e adicione as respostas da verdade básica ao longo do tempo. Mosaic AI O Agent Evaluation pode avaliar a qualidade da sua cadeia sem a verdade básica, embora, se a verdade básica estiver disponível, ele calcule métricas adicionais, como a correção da resposta.

Elementos de um bom conjunto de avaliação

Um bom conjunto de avaliação tem as seguintes características:

  • Representativo: Reflete com precisão a variedade de solicitações que o aplicativo encontrará na produção.

  • Desafiador: O conjunto deve incluir casos difíceis e diversos para testar efetivamente os recursos do modelo. O ideal é que inclua exemplos contraditórios, como perguntas que tentam injetar estímulos ou perguntas que tentam gerar respostas inadequadas do LLM.

  • Continuamente atualizado: O conjunto deve ser atualizado periodicamente para refletir como o aplicativo é usado na produção, a natureza mutável dos dados indexados e quaisquer alterações nos requisitos do aplicativo.

A Databricks recomenda pelo menos 30 perguntas em seu conjunto de avaliação e, idealmente, de 100 a 200. Os melhores conjuntos de avaliação crescerão com o tempo para conter milhares de perguntas.

Conjuntos de treinamento, teste e validação

Para evitar o ajuste excessivo, a Databricks recomenda dividir seu conjunto de avaliação em conjuntos de treinamento, teste e validação:

  • Conjunto de treinamento: ~70% das perguntas. Usado para uma passagem inicial para avaliar cada experimento e identificar os de maior potencial.

  • Conjunto de testes: ~20% das perguntas. Usado para avaliar os experimentos de melhor desempenho do conjunto de treinamento.

  • Conjunto de validação: ~10% das perguntas. Usado para uma verificação final de validação antes de implantar um experimento na produção.

O Mosaic AI Agent Evaluation ajuda o senhor a criar um conjunto de avaliação, fornecendo uma interface de bate-papo baseada na Web para que as partes interessadas forneçam feedback sobre os resultados do aplicativo. Os resultados da cadeia e o feedback das partes interessadas são salvos em tabelas Delta, que podem ser selecionadas em um conjunto de avaliação. Consulte a curadoria de um conjunto de avaliação na seção de implementação deste livro de receitas para obter instruções práticas com código de exemplo.