o passo 6. fazer e avaliar correções de qualidade no agente AI

Este artigo o orienta sobre os passos para iterar e avaliar as correções de qualidade em seu agente generativo AI com base na análise da causa raiz.

POC fluxo de trabalho diagrama, iteração o passo

Para obter mais informações sobre a avaliação de um agente AI, consulte O que é a avaliação do agente Mosaic AI?

Requisitos

  1. Com base na análise da causa raiz, o senhor identificou possíveis correções para a recuperação ou geração a serem implementadas e avaliadas.

  2. Seu aplicativo POC (ou outra cadeia de linha de base) é registrado em um MLflow execução com uma avaliação de avaliação de agente armazenada na mesma execução.

Consulte o repositório do GitHub para obter o código de amostra nesta seção.

Resultado esperado na avaliação de agentes

GIF animado mostrando a saída de uma execução de avaliação de agente em Databricks MLflow.

A imagem anterior mostra a saída da Avaliação do agente no MLflow.

Como corrigir, avaliar e iterar o agente AI

Para todos os tipos, use o B_quality_iteration/02_evaluate_fixes Notebook para avaliar a cadeia resultante em relação à sua configuração de linha de base, seu POC, e escolha um "vencedor". Este Notebook ajuda o senhor a escolher o experimento vencedor e a implantá-lo no aplicativo de revisão ou em um aplicativo escalável e pronto para produção REST API.

  1. Em Databricks, abra o Notebook B_quality_iteration/02_evaluate_fixes.

  2. Com base no tipo de correção que você está implementando:

    • Para correções de pipeline de dados:

    • Para correções de configuração de cadeia:

      • Siga as instruções da seção Chain configuration do Notebook 02_evaluate_fixes para adicionar correções de configuração de cadeia à variável CHAIN_CONFIG_FIXES.

    • Para correções de código em cadeia:

      • Crie um arquivo de código de cadeia modificado e salve-o na pasta B_QUALITY_ITERATION/CHAIN_CODE_FIXES. Como alternativa, selecione uma das correções de código de cadeia fornecidas nessa pasta.

      • Siga as instruções da seção Chain code do Notebook 02_evaluate_fixes para adicionar o arquivo de código de cadeia e qualquer configuração adicional de cadeia necessária à variável CHAIN_CODE_FIXES.

  3. O seguinte acontece quando o senhor executa o Notebook a partir da célula Run evaluation:

    • Avalie cada correção.

    • Determine a correção com as melhores métricas de qualidade/custo/latência.

    • Implante a melhor opção no aplicativo Review e em um site pronto para produção REST API para obter feedback das partes interessadas.