Defina “qualidade”: conjuntos de avaliação
Este artigo descreve os conjuntos de avaliação e como eles ajudam a garantir a qualidade do seu aplicativo.
O que é um conjunto de avaliação?
Para medir a qualidade, o site Databricks recomenda a criação de um conjunto de avaliação de rótulo humano. Um conjunto de avaliação é um conjunto de consultas representativo e organizado, junto com respostas verdadeiras e (opcionalmente) os documentos de apoio corretos que devem ser recuperados. A contribuição humana é crucial nesse processo, pois garante que o conjunto de avaliação reflita com precisão as expectativas e os requisitos dos usuários finais.
A curadoria de rótulos humanos pode ser um processo demorado. O senhor pode começar criando um conjunto de avaliação que inclua apenas perguntas e adicione as respostas da verdade básica ao longo do tempo. Mosaic AI O Agent Evaluation pode avaliar a qualidade da sua cadeia sem a verdade básica, embora, se a verdade básica estiver disponível, ele calcule métricas adicionais, como a correção da resposta.
Elementos de um bom conjunto de avaliação
Um bom conjunto de avaliação tem as seguintes características:
Representante: reflete com precisão a variedade de solicitações que o aplicativo encontrará na produção.
Desafiador: o conjunto deve incluir casos difíceis e diversos para testar com eficácia as capacidades do modelo. O ideal é que inclua exemplos contraditórios, como perguntas que tentam injetar estímulos ou perguntas que tentam gerar respostas inadequadas do LLM.
Atualizado continuamente: o conjunto deve ser atualizado periodicamente para refletir como o aplicativo é usado na produção, a natureza mutável dos dados indexados e quaisquer alterações nos requisitos do aplicativo.
A Databricks recomenda pelo menos 30 perguntas em seu conjunto de avaliação e, idealmente, de 100 a 200. Os melhores conjuntos de avaliação crescerão com o tempo para conter 1.000 perguntas.
Conjuntos de treinamento, teste e validação
Para evitar o ajuste excessivo, a Databricks recomenda dividir seu conjunto de avaliação em conjuntos de treinamento, teste e validação:
Conjunto de treinamento: ~70% das perguntas. Usado para uma passagem inicial para avaliar cada experimento para identificar os de maior potencial.
Conjunto de testes: ~ 20% das perguntas. Usado para avaliar os experimentos de melhor desempenho do conjunto de treinamento.
Conjunto de validação: ~ 10% das perguntas. Usado para uma verificação final de validação antes de implantar um experimento na produção.
O Mosaic AI Agent Evaluation ajuda o senhor a criar um conjunto de avaliação, fornecendo uma interface de bate-papo baseada na Web para que as partes interessadas forneçam feedback sobre os resultados do aplicativo. Os resultados da cadeia e o feedback das partes interessadas são salvos em Delta Tables, que podem então ser organizados em um conjunto de avaliação. Consulte a curadoria de um conjunto de avaliação na seção de implementação deste livro de receitas para obter instruções práticas com código de amostra.