Defina “qualidade”: Conjuntos de avaliação
Este artigo descreve os conjuntos de avaliação e como eles ajudam a garantir a qualidade do seu aplicativo.
O que é um conjunto de avaliação?
Para medir a qualidade, a Databricks recomenda a criação de um conjunto de avaliação com rótulo humano. Um conjunto de avaliação é um conjunto curado e representativo de consultas, juntamente com respostas verdadeiras e (opcionalmente) os documentos de apoio corretos que devem ser recuperados. A contribuição humana é crucial neste processo, pois garante que o conjunto de avaliação reflita com precisão as expectativas e requisitos dos usuários finais.
A curadoria de rótulos humanos pode ser um processo demorado. É possível começar criando um conjunto de avaliação que inclua apenas perguntas e adicionar as respostas de verdade fundamental ao longo do tempo. Agent Evaluation pode avaliar a qualidade da sua cadeia sem verdade fundamental, embora, se a verdade fundamental estiver disponível, ela calcule métricas adicionais, como correção de resposta.
Elementos de um bom conjunto de avaliação
Um bom conjunto de avaliação tem as seguintes características:
- Representativo: Reflete com precisão a variedade de solicitações que o aplicativo encontrará em produção.
- Desafiador: O conjunto deve incluir casos difíceis e diversos para testar efetivamente as capacidades do modelo. Idealmente, inclui exemplos adversariais, como perguntas que tentam injeção de prompt ou perguntas que tentam gerar respostas inadequadas do LLM.
- Atualizado continuamente: O conjunto deve ser atualizado periodicamente para refletir como o aplicativo é usado em produção, a natureza mutável dos dados indexados e quaisquer alterações nos requisitos do aplicativo.
O Databricks recomenda pelo menos 30 perguntas em seu conjunto de avaliação e, idealmente, 100–200. Os melhores conjuntos de avaliação crescerão com o tempo para conter milhares de perguntas.
Conjuntos de treinamento, teste e validação
Para evitar o overfitting, a Databricks recomenda dividir seu conjunto de avaliação em conjuntos de treinamento, teste e validação:
- **Conjunto de treinamento:** ~70% das perguntas. Usado para uma primeira avaliação de cada experimento para identificar os de maior potencial.
- **Conjunto de teste:** ~20% das perguntas. Usado para avaliar os experimentos de maior desempenho do conjunto de treinamento.
- Conjunto de validação: ~10% das perguntas. Usado para uma verificação final de validação antes de ter um experimento implantado em produção.
O Agent Evaluation ajuda a criar um conjunto de avaliação, fornecendo uma interface de chat baseada na web para que as partes interessadas forneçam feedback sobre as saídas da aplicação. As saídas da cadeia e o feedback das partes interessadas são salvos em Tabelas Delta, que podem então ser selecionadas em um conjunto de avaliação. Saiba mais sobre como avaliar e melhorar iterativamente o seu aplicativo em 3. Iterar na qualidade do agente de AI.