o passo 5 Identificar a causa principal dos problemas de qualidade
![fluxo de trabalho com iterate o passo destacado](../../_images/workflow-iterate.png)
Consulte o repositório do GitHub para obter o código de amostra nesta seção.
Tempo previsto: 60 minutos.
Requisitos
Os resultados da avaliação do POC estão disponíveis no MLflow. Se o senhor seguiu o passo 4. Avaliar a qualidade do POC, os resultados estão disponíveis em MLflow.
Todos os requisitos dos passos anteriores.
Visão geral
As causas mais prováveis dos problemas de qualidade são a recuperação e a geração de passos. Para determinar onde se concentrar primeiro, use o resultado da avaliação do agenteMosaic AI LLM judges que o senhor executou no passo anterior para identificar a causa raiz mais frequente que afeta a qualidade do seu aplicativo.
Cada linha do seu conjunto de análise é identificada da seguinte forma:
Avaliação geral:
ou
.
Causa raiz:
Improve Retrieval
ouImprove Generation
.Justificativa da causa raiz: Uma breve descrição do motivo pelo qual a causa raiz foi selecionada.
Instruções
A abordagem depende do fato de o conjunto de avaliação conter as respostas verdadeiras às suas perguntas. Essas respostas são armazenadas em expected_response
. Se o senhor tiver expected_response
disponível, use a tabela Análise da causa raiz se a verdade básica estiver disponível. Caso contrário, use a tabela Root cause analysis se a verdade terrestre não estiver disponível.
Abra o arquivo B_quality_iteration/01_root_cause_quality_issues Notebook.
executar as células que são relevantes para seu caso de uso, por exemplo, se o senhor tem ou não tem expected_response
Analise as tabelas de resultados para determinar a causa raiz mais frequente em seu aplicativo
Para cada causa raiz, siga os passos abaixo para depurar ainda mais e identificar possíveis correções:
Análise da causa raiz se a verdade fundamental estiver disponível
Observação
Se o senhor tiver um rótulo humano de verdade sobre qual documento deve ser recuperado para cada pergunta, poderá, opcionalmente, substituir retrieval/llm_judged/chunk_relevance/precision/average
pela pontuação de retrieval/ground_truth/document_recall/average
.
Precisão da relevância dos pedaços |
Fundamentação |
Correção |
Relevância para a consulta |
Resumo do problema |
Causa raiz |
Classificação geral |
---|---|---|---|---|---|---|
<50% |
❌ |
❌ |
❌ |
A recuperação é ruim. |
|
|
<50% |
❌ |
❌ |
✅ |
O LLM gera respostas relevantes, mas a recuperação é ruim. Por exemplo, o LLM ignora a recuperação e usa seu conhecimento de treinamento para responder. |
|
|
<50% |
❌ |
✅ |
✅ ou ❌ |
A qualidade da recuperação é ruim, mas o LLM obtém a resposta correta independentemente disso. |
|
|
<50% |
✅ |
❌ |
❌ |
A resposta é baseada na recuperação, mas a recuperação é ruim. |
|
|
<50% |
✅ |
❌ |
✅ |
Resposta relevante fundamentada no contexto recuperado, mas a recuperação pode não estar relacionada à resposta esperada. |
|
|
<50% |
✅ |
✅ |
✅ ou ❌ |
O Retrieval encontra informações suficientes para que o LLM responda corretamente. |
Nenhuma |
|
>50% |
❌ |
❌ |
✅ ou ❌ |
Alucinação. |
|
|
>50% |
❌ |
✅ |
✅ ou ❌ |
Alucinação, correta, mas gera detalhes fora do contexto. |
|
|
>50% |
✅ |
❌ |
❌ |
Boa recuperação, mas o LLM não fornece uma resposta relevante. |
|
|
>50% |
✅ |
❌ |
✅ |
Boa recuperação e resposta relevante, mas não correta. |
|
|
>50% |
✅ |
✅ |
✅ |
Sem problemas. |
Nenhuma |
|
Análise da causa raiz se a verdade fundamental não estiver disponível
Precisão da relevância dos pedaços |
Fundamentação |
Relevância para a consulta |
Resumo do problema |
Causa raiz |
Classificação geral |
---|---|---|---|---|---|
<50% |
❌ |
❌ |
A qualidade da recuperação é ruim. |
|
|
<50% |
❌ |
✅ |
A qualidade da recuperação é ruim. |
|
|
<50% |
✅ |
❌ |
A resposta é baseada na recuperação, mas a recuperação é ruim. |
|
|
<50% |
✅ |
✅ |
Resposta relevante fundamentada no contexto recuperado e relevante, mas a recuperação é ruim. |
|
|
>50% |
❌ |
❌ |
Alucinação. |
|
|
>50% |
❌ |
✅ |
Alucinação. |
|
|
>50% |
✅ |
❌ |
Boa recuperação e fundamentação, mas o LLM não fornece uma resposta relevante. |
|
|
>50% |
✅ |
✅ |
Boa recuperação e resposta relevante. Colete a verdade básica para saber se a resposta está correta. |
Nenhuma |
|
Próximo passo
Consulte as páginas a seguir para depurar os problemas que o senhor identificou: