o passo 3. selecionar um conjunto de avaliação a partir do feedback das partes interessadas
Consulte o repositório do GitHub para obter o código de amostra nesta seção.
Tempo previsto: 10 a 60 minutos. O tempo varia de acordo com a qualidade das respostas fornecidas pelas partes interessadas. Se as respostas forem confusas ou contiverem muitas consultas irrelevantes, o senhor precisará gastar mais tempo filtrando e limpando os dados.
Visão geral e resultados esperados
Neste passo, será criado um conjunto de avaliação com o feedback que as partes interessadas forneceram usando o Review App. Observe que é possível iniciar um conjunto de avaliação apenas com perguntas, portanto, mesmo que as partes interessadas tenham apenas conversado com o aplicativo em vez de fornecer feedback, o senhor pode seguir esse passo.
Para obter o esquema do set de avaliação Avaliação de agentes, consulte Esquema do set de avaliação. Os campos desse esquema são referenciados no restante desta seção.
Ao final deste passo, o senhor terá um Conjunto de Avaliação que contém o seguinte:
Solicitações com um 👍:
request
: conforme inserido pelo usuário.expected_response
: Resposta conforme editada pelo usuário. Se o usuário não editou a resposta, a resposta gerada pelo modelo será a mesma.
Solicitações com um 👎:
request
: conforme inserido pelo usuário.expected_response
: Resposta conforme editada pelo usuário. Se o usuário não editou a resposta, a resposta será nula.
Solicitações sem feedback (sem 👍 ou 👎)
request
: conforme inserido pelo usuário.
Para todas as solicitações, se o usuário selecionar 👍 para um bloco de retrieved_context
, o doc_uri
desse bloco será incluído em expected_retrieved_context
para a pergunta.
Importante
A Databricks recomenda que seu conjunto de avaliação contenha pelo menos 30 perguntas para começar. Leia [evaluation set deep dive] para saber mais sobre o que é um "bom" conjunto de avaliação.
Requisitos
As partes interessadas usaram seu POC e forneceram feedback.
Todos os requisitos dos passos anteriores.
Instruções
Abra o 04_create_evaluation_set Notebook e clique em executar tudo.
Inspecione o conjunto de avaliação para entender os dados que estão incluídos. O senhor precisa validar se o conjunto de avaliação contém um conjunto representativo e desafiador de perguntas. Ajuste o conjunto de avaliação conforme necessário.
Em default, seu conjunto de avaliação é salvo na tabela Delta configurada em
EVALUATION_SET_FQN
no 00_global_config Notebook.
Próximo passo
Agora que o senhor tem um conjunto de avaliação, use-o para avaliar a qualidade, o custo e a latência do aplicativo POC. Veja o passo 4. Avaliar a qualidade do POC.