o passo 3. selecionar um conjunto de avaliação a partir do feedback das partes interessadas

fluxo de trabalho com conjunto de avaliação destacado

Consulte o repositório do GitHub para obter o código de amostra nesta seção.

Tempo esperado: 10 - 60 minutos. O tempo varia de acordo com a qualidade das respostas fornecidas pelas partes interessadas. Se as respostas forem confusas ou contiverem muitas consultas irrelevantes, você precisará gastar mais tempo filtrando e limpando os dados.

Visão geral e resultado esperado

Neste passo, será criado um conjunto de avaliação com o feedback que as partes interessadas forneceram usando o Review App. Observe que é possível iniciar um conjunto de avaliação apenas com perguntas, portanto, mesmo que as partes interessadas tenham apenas conversado com o aplicativo em vez de fornecer feedback, o senhor pode seguir esse passo.

Para o esquema do conjunto de avaliação do agente, consulte Esquema do conjunto de avaliação. Os campos desse esquema são referenciados no restante desta seção.

Ao final deste passo, o senhor terá um Conjunto de Avaliação que contém o seguinte:

  • Solicitações com 👍:

    • request: conforme inserido pelo usuário.

    • expected_response: Resposta conforme editada pelo usuário. Se o usuário não editou a resposta, a resposta gerada pelo modelo.

  • Solicitações com 👎:

    • request: conforme inserido pelo usuário.

    • expected_response: Resposta conforme editada pelo usuário. Se o usuário não editou a resposta, ela será nula.

  • Solicitações sem feedback (sem 👍 ou 👎)

    • request: conforme inserido pelo usuário.

Para todas as solicitações, se o usuário selecionar 👍 para um trecho do retrieved_context, o doc_uri desse trecho será incluído em expected_retrieved_context para a pergunta.

Importante

A Databricks recomenda que seu conjunto de avaliação contenha pelo menos 30 perguntas para começar. Leia o [detalhamento do conjunto de avaliação] para saber mais sobre o que é um “bom” conjunto de avaliação.

Requisitos

  • As partes interessadas usaram seu POC e forneceram feedback.

  • Todos os requisitos dos passos anteriores.

Instruções

  1. Abra o Notebook 04_create_evaluation_set e clique em executar tudo.

  2. Inspecione o conjunto de avaliação para entender os dados incluídos. Você precisa validar se seu conjunto de avaliação contém um conjunto de perguntas representativo e desafiador. Ajuste o conjunto de avaliação conforme necessário.

  3. Em default, seu conjunto de avaliação é salvo na tabela Delta configurada em EVALUATION_SET_FQN no 00_global_config Notebook.

Próximo passo

Agora que você tem um conjunto de avaliação, use-o para avaliar a qualidade, o custo e a latência do aplicativo POC. Veja o passo 4. Avaliar a qualidade do POC.