Introdução à avaliação do agente Mosaic AI

Prévia

Este recurso está em Prévia pública.

Este artigo descreve Mosaic AI Agent Evaluation. O Agent Evaluation permite que os desenvolvedores avaliem de forma rápida e confiável a qualidade, a latência e o custo dos aplicativos de IA geradora de agentes, incluindo as formas mais simples de aplicativos e cadeias RAG. Os recursos da Avaliação de agentes são unificados nas fases de desenvolvimento, preparação e produção do ciclo de vida do site MLOps, e todas as métricas e dados de avaliação são registrados no site MLflow execução.

Os aplicativos agênticos são complexos e envolvem muitos componentes diferentes. A avaliação do desempenho desses aplicativos não é tão simples quanto a avaliação do desempenho dos modelos tradicionais de ML. As métricas qualitativas e quantitativas usadas para avaliar a qualidade são inerentemente mais complexas. Este artigo apresenta uma visão geral de como trabalhar com a Avaliação de agentes e inclui links para artigos com mais detalhes.

Estabeleça a verdade fundamental com um conjunto de avaliação

Para medir a qualidade de um aplicativo agêntico, o senhor precisa definir o que é uma resposta precisa e de alta qualidade. Para fazer isso, o senhor cria um conjunto de avaliação, que é um conjunto de perguntas representativas e respostas verdadeiras. Se a solicitação envolver uma recuperação de passo, como no RAG fluxo de trabalho, o senhor poderá, opcionalmente, fornecer documentos de apoio nos quais espera que a resposta se baseie.

Para obter detalhes sobre conjuntos de avaliação, incluindo o esquema, dependências de métrica e práticas recomendadas, consulte Conjuntos de avaliação.

Avalie o desempenho com as métricas corretas

A avaliação de um aplicativo de IA exige vários conjuntos de métricas, incluindo:

  • Métricas de resposta, que medem se a resposta é precisa, consistente com o contexto recuperado (se houver) e relevante para a solicitação de entrada.

  • Métricas de recuperação, que medem se a recuperação dos passos (se houver) retornou pedaços relevantes para a solicitação de entrada.

  • Métricas de desempenho, que medem o número de tokens em todas as chamadas de geração de LLM e a latência em segundos para o rastreamento.

Para obter detalhes sobre métricas e juízes LLM, consulte Usar métricas do agente & juízes LLM para avaliar o desempenho do aplicativo.

Execuções de avaliação

Para obter detalhes sobre como executar uma avaliação, consulte Como executar uma avaliação e ver os resultados. A Avaliação de agentes oferece suporte a duas opções para fornecer saída da cadeia:

  • O senhor pode executar o aplicativo como parte da execução da avaliação. O aplicativo gera resultados para cada entrada no conjunto de avaliação.

  • Você pode fornecer a saída de uma execução anterior do aplicativo.

Para obter detalhes e explicações sobre quando utilizar cada opção, consulte Como fornecer informações para uma execução de avaliação.

Receber feedback humano sobre a qualidade de um aplicativo GenAI

O aplicativo de revisão da Databricks facilita a obtenção de feedback sobre a qualidade de um aplicativo agêntico de revisores humanos. Para obter detalhes, consulte Obter feedback sobre a qualidade de um aplicativo agêntico.

Informação sobre os modelos que capacitam os juízes do LLM

  • Os juízes do LLM podem utilizar serviços de terceiros para avaliar suas aplicações GenAI, incluindo o Azure OpenAI operado pela Microsoft.

  • Para o Azure OpenAI, a Databricks optou por não utilizar o Abuse Monitoring, portanto nenhum prompt ou resposta é armazenado com o Azure OpenAI.

  • Para os espaços de trabalho da União Europeia (UE), os juízes do LLM usam modelos hospedados na UE. Todas as outras regiões usam modelos hospedados nos EUA.

  • A desativação dos recursos de assistência de IA alimentados por parceiros impedirá que o juiz do LLM ligue para modelos desenvolvidos por parceiros.

  • Os dados enviados para o juiz LLM não são utilizados para nenhum treinamento de modelo.

  • Os juízes do LLM têm como objetivo ajudar os clientes a avaliar seus aplicativos RAG e os resultados dos juízes do LLM não devem ser usados para treinar, melhorar nem ajustar um LLM.