o passo 3. selecionar um conjunto de avaliação a partir do feedback das partes interessadas

fluxo de trabalho com conjunto de avaliação destacado

Consulte o repositório do GitHub para obter o código de amostra nesta seção.

Tempo previsto: 10 a 60 minutos. O tempo varia de acordo com a qualidade das respostas fornecidas pelas partes interessadas. Se as respostas forem confusas ou contiverem muitas consultas irrelevantes, o senhor precisará gastar mais tempo filtrando e limpando os dados.

Visão geral e resultados esperados

Neste passo, será criado um conjunto de avaliação com o feedback que as partes interessadas forneceram usando o Review App. Observe que é possível iniciar um conjunto de avaliação apenas com perguntas, portanto, mesmo que as partes interessadas tenham apenas conversado com o aplicativo em vez de fornecer feedback, o senhor pode seguir esse passo.

Para obter o esquema do set de avaliação Avaliação de agentes, consulte Esquema do set de avaliação. Os campos desse esquema são referenciados no restante desta seção.

Ao final deste passo, o senhor terá um Conjunto de Avaliação que contém o seguinte:

  • Solicitações com um 👍:

    • request: conforme inserido pelo usuário.

    • expected_response: Resposta conforme editada pelo usuário. Se o usuário não editou a resposta, a resposta gerada pelo modelo será a mesma.

  • Solicitações com um 👎:

    • request: conforme inserido pelo usuário.

    • expected_response: Resposta conforme editada pelo usuário. Se o usuário não editou a resposta, a resposta será nula.

  • Solicitações sem feedback (sem 👍 ou 👎)

    • request: conforme inserido pelo usuário.

Para todas as solicitações, se o usuário selecionar 👍 para um bloco de retrieved_context, o doc_uri desse bloco será incluído em expected_retrieved_context para a pergunta.

Importante

A Databricks recomenda que seu conjunto de avaliação contenha pelo menos 30 perguntas para começar. Leia [evaluation set deep dive] para saber mais sobre o que é um "bom" conjunto de avaliação.

Requisitos

  • As partes interessadas usaram seu POC e forneceram feedback.

  • Todos os requisitos dos passos anteriores.

Instruções

  1. Abra o 04_create_evaluation_set Notebook e clique em executar tudo.

  2. Inspecione o conjunto de avaliação para entender os dados que estão incluídos. O senhor precisa validar se o conjunto de avaliação contém um conjunto representativo e desafiador de perguntas. Ajuste o conjunto de avaliação conforme necessário.

  3. Em default, seu conjunto de avaliação é salvo na tabela Delta configurada em EVALUATION_SET_FQN no 00_global_config Notebook.

Próximo passo

Agora que o senhor tem um conjunto de avaliação, use-o para avaliar a qualidade, o custo e a latência do aplicativo POC. Veja o passo 4. Avaliar a qualidade do POC.