o passo 5 Identificar a causa principal dos problemas de qualidade

fluxo de trabalho com iterate o passo destacado

Consulte o repositório do GitHub para obter o código de amostra nesta seção.

Tempo esperado: 60 minutos.

Requisitos

  • Os resultados da avaliação do POC estão disponíveis no MLflow. Se o senhor seguiu o passo 4. Avaliar a qualidade do POC, os resultados estão disponíveis em MLflow.

  • Todos os requisitos dos passos anteriores.

Visão geral

As causas mais prováveis dos problemas de qualidade são a recuperação e a geração de passos. Para determinar onde se concentrar primeiro, use o resultado da avaliação do agenteMosaic AI LLM judges que o senhor executou no passo anterior para identificar a causa raiz mais frequente que afeta a qualidade do seu aplicativo.

Cada linha do seu conjunto de análise é identificada da seguinte forma:

  • Avaliação geral: aprovação ou reprovação.

  • Causa raiz: Improve Retrieval ou Improve Generation.

  • Justificativa da causa raiz: uma breve descrição do motivo pelo qual a causa raiz foi selecionada.

Instruções

A abordagem depende de seu conjunto de avaliação conter as respostas verdadeiras às suas perguntas. Essas respostas são armazenadas em expected_response. Se o senhor tiver expected_response disponível, use a tabela Análise da causa raiz se a verdade básica estiver disponível. Caso contrário, use a tabela Root cause analysis se a verdade terrestre não estiver disponível.

  1. Abra o Notebook B_quality_iteration/01_root_cause_quality_issues.

  2. executar as células que são relevantes para seu caso de uso, por exemplo, se o senhor tem ou não tem expected_response

  3. Analise as tabelas de saída para determinar a causa raiz mais frequente em seu aplicativo

  4. Para cada causa raiz, siga os passos abaixo para depurar ainda mais e identificar possíveis correções:

Análise da causa raiz se a verdade fundamental estiver disponível

Observação

Se o senhor tiver um rótulo humano de verdade sobre qual documento deve ser recuperado para cada pergunta, poderá, opcionalmente, substituir retrieval/llm_judged/chunk_relevance/precision/average pela pontuação de retrieval/ground_truth/document_recall/average.

Precisão de relevância do fragmento

Aterramento

Exatidão

Relevância para a consulta

Resumo do problema

Causa raiz

Classificação geral

< 50%

Falhar

Falhar

Falhar

A recuperação é ruim.

Improve Retrieval

Falhar

< 50%

Falhar

Falhar

Passe

O LLM gera respostas relevantes, mas a recuperação é ruim. Por exemplo, o LLM ignora a recuperação e usa seu conhecimento de treinamento para responder.

Improve Retrieval

Falhar

< 50%

Falhar

Passe

Aprovar ou falhar

A qualidade da recuperação é ruim, mas o LLM obtém a resposta correta independentemente disso.

Improve Retrieval

Falhar

< 50%

Passe

Falhar

Falhar

A resposta é baseada na recuperação, mas a recuperação é ruim.

Improve Retrieval

Falhar

< 50%

Passe

Falhar

Passe

Resposta relevante baseada no contexto recuperado, mas a recuperação pode não estar relacionada à resposta esperada.

Improve Retrieval

Falhar

< 50%

Passe

Passe

Aprovar ou falhar

O Retrieval encontra informações suficientes para que o LLM responda corretamente.

Nenhuma

Passe

> 50%

Falhar

Falhar

Aprovar ou falhar

Alucinação.

Improve Generation

Falhar

> 50%

Falhar

Passe

Aprovar ou falhar

Alucinação, correta, mas gera detalhes que não estão no contexto.

Improve Generation

Falhar

> 50%

Passe

Falhar

Falhar

Boa recuperação, mas o LLM não fornece uma resposta relevante.

Improve Generation

Falhar

> 50%

Passe

Falhar

Passe

Boa recuperação e resposta relevante, mas não correta.

Improve Generation

Falhar

> 50%

Passe

Passe

Passe

Sem problemas.

Nenhuma

Passe

Análise da causa raiz se a verdade fundamental não estiver disponível

Precisão de relevância do fragmento

Aterramento

Relevância para a consulta

Resumo do problema

Causa raiz

Classificação geral

< 50%

Falhar

Falhar

A qualidade da recuperação é ruim.

Improve Retrieval

Falhar

< 50%

Falhar

Passe

A qualidade da recuperação é ruim.

Improve Retrieval

Falhar

< 50%

Passe

Falhar

A resposta é baseada na recuperação, mas a recuperação é ruim.

Improve Retrieval

Falhar

< 50%

Passe

Passe

Resposta relevante baseada no contexto recuperado e relevante, mas a recuperação é ruim.

Improve Retrieval

Passe

> 50%

Falhar

Falhar

Alucinação.

Improve Generation

Falhar

> 50%

Falhar

Passe

Alucinação.

Improve Generation

Falhar

> 50%

Passe

Falhar

Boa recuperação e fundamentação, mas o LLM não fornece uma resposta relevante.

Improve Generation

Falhar

> 50%

Passe

Passe

Boa recuperação e resposta relevante. Colete a verdade fundamental para saber se a resposta está correta.

Nenhuma

Passe