o passo 5 Identificar a causa principal dos problemas de qualidade
Consulte o repositório do GitHub para obter o código de amostra nesta seção.
Tempo esperado: 60 minutos.
Requisitos
Os resultados da avaliação do POC estão disponíveis no MLflow. Se o senhor seguiu o passo 4. Avaliar a qualidade do POC, os resultados estão disponíveis em MLflow.
Todos os requisitos dos passos anteriores.
Visão geral
As causas mais prováveis dos problemas de qualidade são a recuperação e a geração de passos. Para determinar onde se concentrar primeiro, use o resultado da avaliação do agenteMosaic AI LLM judges que o senhor executou no passo anterior para identificar a causa raiz mais frequente que afeta a qualidade do seu aplicativo.
Cada linha do seu conjunto de análise é identificada da seguinte forma:
Avaliação geral: aprovação ou reprovação.
Causa raiz:
Improve Retrieval
ouImprove Generation
.Justificativa da causa raiz: uma breve descrição do motivo pelo qual a causa raiz foi selecionada.
Instruções
A abordagem depende de seu conjunto de avaliação conter as respostas verdadeiras às suas perguntas. Essas respostas são armazenadas em expected_response
. Se o senhor tiver expected_response
disponível, use a tabela Análise da causa raiz se a verdade básica estiver disponível. Caso contrário, use a tabela Root cause analysis se a verdade terrestre não estiver disponível.
Abra o Notebook B_quality_iteration/01_root_cause_quality_issues.
executar as células que são relevantes para seu caso de uso, por exemplo, se o senhor tem ou não tem expected_response
Analise as tabelas de saída para determinar a causa raiz mais frequente em seu aplicativo
Para cada causa raiz, siga os passos abaixo para depurar ainda mais e identificar possíveis correções:
Análise da causa raiz se a verdade fundamental estiver disponível
Observação
Se o senhor tiver um rótulo humano de verdade sobre qual documento deve ser recuperado para cada pergunta, poderá, opcionalmente, substituir retrieval/llm_judged/chunk_relevance/precision/average
pela pontuação de retrieval/ground_truth/document_recall/average
.
Precisão de relevância do fragmento |
Aterramento |
Exatidão |
Relevância para a consulta |
Resumo do problema |
Causa raiz |
Classificação geral |
---|---|---|---|---|---|---|
< 50% |
Falhar |
Falhar |
Falhar |
A recuperação é ruim. |
|
Falhar |
< 50% |
Falhar |
Falhar |
Passe |
O LLM gera respostas relevantes, mas a recuperação é ruim. Por exemplo, o LLM ignora a recuperação e usa seu conhecimento de treinamento para responder. |
|
Falhar |
< 50% |
Falhar |
Passe |
Aprovar ou falhar |
A qualidade da recuperação é ruim, mas o LLM obtém a resposta correta independentemente disso. |
|
Falhar |
< 50% |
Passe |
Falhar |
Falhar |
A resposta é baseada na recuperação, mas a recuperação é ruim. |
|
Falhar |
< 50% |
Passe |
Falhar |
Passe |
Resposta relevante baseada no contexto recuperado, mas a recuperação pode não estar relacionada à resposta esperada. |
|
Falhar |
< 50% |
Passe |
Passe |
Aprovar ou falhar |
O Retrieval encontra informações suficientes para que o LLM responda corretamente. |
Nenhuma |
Passe |
> 50% |
Falhar |
Falhar |
Aprovar ou falhar |
Alucinação. |
|
Falhar |
> 50% |
Falhar |
Passe |
Aprovar ou falhar |
Alucinação, correta, mas gera detalhes que não estão no contexto. |
|
Falhar |
> 50% |
Passe |
Falhar |
Falhar |
Boa recuperação, mas o LLM não fornece uma resposta relevante. |
|
Falhar |
> 50% |
Passe |
Falhar |
Passe |
Boa recuperação e resposta relevante, mas não correta. |
|
Falhar |
> 50% |
Passe |
Passe |
Passe |
Sem problemas. |
Nenhuma |
Passe |
Análise da causa raiz se a verdade fundamental não estiver disponível
Precisão de relevância do fragmento |
Aterramento |
Relevância para a consulta |
Resumo do problema |
Causa raiz |
Classificação geral |
---|---|---|---|---|---|
< 50% |
Falhar |
Falhar |
A qualidade da recuperação é ruim. |
|
Falhar |
< 50% |
Falhar |
Passe |
A qualidade da recuperação é ruim. |
|
Falhar |
< 50% |
Passe |
Falhar |
A resposta é baseada na recuperação, mas a recuperação é ruim. |
|
Falhar |
< 50% |
Passe |
Passe |
Resposta relevante baseada no contexto recuperado e relevante, mas a recuperação é ruim. |
|
Passe |
> 50% |
Falhar |
Falhar |
Alucinação. |
|
Falhar |
> 50% |
Falhar |
Passe |
Alucinação. |
|
Falhar |
> 50% |
Passe |
Falhar |
Boa recuperação e fundamentação, mas o LLM não fornece uma resposta relevante. |
|
Falhar |
> 50% |
Passe |
Passe |
Boa recuperação e resposta relevante. Colete a verdade fundamental para saber se a resposta está correta. |
Nenhuma |
Passe |
Próximo passo
Consulte as páginas a seguir para depurar os problemas que você identificou:
< Anterior: o passo 4. avaliar a qualidade do POC
Próximo: o passo 5.1. Qualidade de recuperação de depuração >