o passo 5 Identificar a causa principal dos problemas de qualidade

fluxo de trabalho com iterate o passo destacado

Consulte o repositório do GitHub para obter o código de amostra nesta seção.

Tempo previsto: 60 minutos.

Requisitos

  • Os resultados da avaliação do POC estão disponíveis no MLflow. Se o senhor seguiu o passo 4. Avaliar a qualidade do POC, os resultados estão disponíveis em MLflow.

  • Todos os requisitos dos passos anteriores.

Visão geral

As causas mais prováveis dos problemas de qualidade são a recuperação e a geração de passos. Para determinar onde se concentrar primeiro, use o resultado da avaliação do agenteMosaic AI LLM judges que o senhor executou no passo anterior para identificar a causa raiz mais frequente que afeta a qualidade do seu aplicativo.

Cada linha do seu conjunto de análise é identificada da seguinte forma:

  • Avaliação geral: passar ou falhar.

  • Causa raiz: Improve Retrieval ou Improve Generation.

  • Justificativa da causa raiz: Uma breve descrição do motivo pelo qual a causa raiz foi selecionada.

Instruções

A abordagem depende do fato de o conjunto de avaliação conter as respostas verdadeiras às suas perguntas. Essas respostas são armazenadas em expected_response. Se o senhor tiver expected_response disponível, use a tabela Análise da causa raiz se a verdade básica estiver disponível. Caso contrário, use a tabela Root cause analysis se a verdade terrestre não estiver disponível.

  1. Abra o arquivo B_quality_iteration/01_root_cause_quality_issues Notebook.

  2. executar as células que são relevantes para seu caso de uso, por exemplo, se o senhor tem ou não tem expected_response

  3. Analise as tabelas de resultados para determinar a causa raiz mais frequente em seu aplicativo

  4. Para cada causa raiz, siga os passos abaixo para depurar ainda mais e identificar possíveis correções:

Análise da causa raiz se a verdade fundamental estiver disponível

Observação

Se o senhor tiver um rótulo humano de verdade sobre qual documento deve ser recuperado para cada pergunta, poderá, opcionalmente, substituir retrieval/llm_judged/chunk_relevance/precision/average pela pontuação de retrieval/ground_truth/document_recall/average.

Precisão da relevância dos pedaços

Fundamentação

Correção

Relevância para a consulta

Resumo do problema

Causa raiz

Classificação geral

<50%

A recuperação é ruim.

Improve Retrieval

falhar

<50%

O LLM gera respostas relevantes, mas a recuperação é ruim. Por exemplo, o LLM ignora a recuperação e usa seu conhecimento de treinamento para responder.

Improve Retrieval

falhar

<50%

✅ ou ❌

A qualidade da recuperação é ruim, mas o LLM obtém a resposta correta independentemente disso.

Improve Retrieval

falhar

<50%

A resposta é baseada na recuperação, mas a recuperação é ruim.

Improve Retrieval

falhar

<50%

Resposta relevante fundamentada no contexto recuperado, mas a recuperação pode não estar relacionada à resposta esperada.

Improve Retrieval

falhar

<50%

✅ ou ❌

O Retrieval encontra informações suficientes para que o LLM responda corretamente.

Nenhuma

passar

>50%

✅ ou ❌

Alucinação.

Improve Generation

falhar

>50%

✅ ou ❌

Alucinação, correta, mas gera detalhes fora do contexto.

Improve Generation

falhar

>50%

Boa recuperação, mas o LLM não fornece uma resposta relevante.

Improve Generation

falhar

>50%

Boa recuperação e resposta relevante, mas não correta.

Improve Generation

falhar

>50%

Sem problemas.

Nenhuma

passar

Análise da causa raiz se a verdade fundamental não estiver disponível

Precisão da relevância dos pedaços

Fundamentação

Relevância para a consulta

Resumo do problema

Causa raiz

Classificação geral

<50%

A qualidade da recuperação é ruim.

Improve Retrieval

falhar

<50%

A qualidade da recuperação é ruim.

Improve Retrieval

falhar

<50%

A resposta é baseada na recuperação, mas a recuperação é ruim.

Improve Retrieval

falhar

<50%

Resposta relevante fundamentada no contexto recuperado e relevante, mas a recuperação é ruim.

Improve Retrieval

passar

>50%

Alucinação.

Improve Generation

falhar

>50%

Alucinação.

Improve Generation

falhar

>50%

Boa recuperação e fundamentação, mas o LLM não fornece uma resposta relevante.

Improve Generation

falhar

>50%

Boa recuperação e resposta relevante. Colete a verdade básica para saber se a resposta está correta.

Nenhuma

passar

Próximo passo

Consulte as páginas a seguir para depurar os problemas que o senhor identificou: