o passo 3. selecionar um conjunto de avaliação a partir do feedback das partes interessadas
Consulte o repositório do GitHub para obter o código de amostra nesta seção.
Tempo esperado: 10 - 60 minutos. O tempo varia de acordo com a qualidade das respostas fornecidas pelas partes interessadas. Se as respostas forem confusas ou contiverem muitas consultas irrelevantes, você precisará gastar mais tempo filtrando e limpando os dados.
Visão geral e resultado esperado
Neste passo, será criado um conjunto de avaliação com o feedback que as partes interessadas forneceram usando o Review App. Observe que é possível iniciar um conjunto de avaliação apenas com perguntas, portanto, mesmo que as partes interessadas tenham apenas conversado com o aplicativo em vez de fornecer feedback, o senhor pode seguir esse passo.
Para o esquema do conjunto de avaliação do agente, consulte Esquema de entrada da avaliação do agente. Os campos desse esquema são referenciados no restante desta seção.
Ao final deste passo, o senhor terá um Conjunto de Avaliação que contém o seguinte:
Solicitações com o polegar para cima 👍:
request
: conforme inserido pelo usuário.expected_response
: Resposta conforme editada pelo usuário. Se o usuário não editou a resposta, a resposta gerada pelo modelo.
Solicitações com o polegar para baixo 👎:
request
: conforme inserido pelo usuário.expected_response
: Resposta conforme editada pelo usuário. Se o usuário não editou a resposta, ela será nula.
Solicitações sem feedback (sem polegar para cima 👍 ou polegar para baixo 👎)
request
: conforme inserido pelo usuário.
Para todas as solicitações, se o usuário selecionar thumbs-up 👍 para um trecho do retrieved_context
, o doc_uri
desse trecho será incluído em expected_retrieved_context
para a pergunta.
Importante
A Databricks recomenda que seu conjunto de avaliação contenha pelo menos 30 perguntas para começar. Leia detalhadamente o conjunto de avaliação para saber mais sobre o que é um “bom” conjunto de avaliação.
Requisitos
As partes interessadas usaram seu POC e forneceram feedback.
Todos os requisitos dos passos anteriores.
Instruções
Abra o Notebook 04_create_evaluation_set e clique em executar tudo.
Inspecione o conjunto de avaliação para entender os dados incluídos. Você precisa validar se seu conjunto de avaliação contém um conjunto de perguntas representativo e desafiador. Ajuste o conjunto de avaliação conforme necessário.
Em default, seu conjunto de avaliação é salvo na tabela Delta configurada em
EVALUATION_SET_FQN
no 00_global_config Notebook.
Próximo passo
Agora que você tem um conjunto de avaliação, use-o para avaliar a qualidade, o custo e a latência do aplicativo POC. Veja o passo 4. Avaliar a qualidade do POC.