Introdução à avaliação do agente Mosaic AI
Prévia
Este recurso está em Prévia pública.
Este artigo descreve Mosaic AI Agent Evaluation. O Agent Evaluation permite que os desenvolvedores avaliem de forma rápida e confiável a qualidade, a latência e o custo dos aplicativos de IA geradora de agentes, incluindo as formas mais simples de aplicativos e cadeias RAG. Os recursos da Avaliação de agentes são unificados nas fases de desenvolvimento, preparação e produção do ciclo de vida do site MLOps, e todas as métricas e dados de avaliação são registrados no site MLflow execução.
Os aplicativos agênticos são complexos e envolvem muitos componentes diferentes. A avaliação do desempenho desses aplicativos não é tão simples quanto a avaliação do desempenho dos modelos tradicionais de ML. As métricas qualitativas e quantitativas usadas para avaliar a qualidade são inerentemente mais complexas. Este artigo apresenta uma visão geral de como trabalhar com a Avaliação de agentes e inclui links para artigos com mais detalhes.
Estabeleça a verdade fundamental com um conjunto de avaliação
Para medir a qualidade de um aplicativo agêntico, o senhor precisa definir o que é uma resposta precisa e de alta qualidade. Para fazer isso, o senhor cria um conjunto de avaliação, que é um conjunto de perguntas representativas e respostas verdadeiras. Se a solicitação envolver uma recuperação de passo, como no RAG fluxo de trabalho, o senhor poderá, opcionalmente, fornecer documentos de apoio nos quais espera que a resposta se baseie.
Para obter detalhes sobre conjuntos de avaliação, incluindo o esquema, dependências de métrica e práticas recomendadas, consulte Conjuntos de avaliação.
Avalie o desempenho com as métricas corretas
A avaliação de um aplicativo de IA exige vários conjuntos de métricas, incluindo:
Métricas de resposta, que medem se a resposta é precisa, consistente com o contexto recuperado (se houver) e relevante para a solicitação de entrada.
Métricas de recuperação, que medem se a recuperação dos passos (se houver) retornou pedaços relevantes para a solicitação de entrada.
Métricas de desempenho, que medem o número de tokens em todas as chamadas de geração de LLM e a latência em segundos para o rastreamento.
Para obter detalhes sobre métricas e juízes LLM, consulte Usar métricas do agente & juízes LLM para avaliar o desempenho do aplicativo.
Execuções de avaliação
Para obter detalhes sobre como executar uma avaliação, consulte Como executar uma avaliação e ver os resultados. A Avaliação de agentes oferece suporte a duas opções para fornecer saída da cadeia:
O senhor pode executar o aplicativo como parte da execução da avaliação. O aplicativo gera resultados para cada entrada no conjunto de avaliação.
Você pode fornecer a saída de uma execução anterior do aplicativo.
Para obter detalhes e explicações sobre quando utilizar cada opção, consulte Como fornecer informações para uma execução de avaliação.
Receber feedback humano sobre a qualidade de um aplicativo GenAI
O aplicativo de revisão da Databricks facilita a obtenção de feedback sobre a qualidade de um aplicativo agêntico de revisores humanos. Para obter detalhes, consulte Obter feedback sobre a qualidade de um aplicativo agêntico.
Informação sobre os modelos que capacitam os juízes do LLM
Os juízes do LLM podem utilizar serviços de terceiros para avaliar suas aplicações GenAI, incluindo o Azure OpenAI operado pela Microsoft.
Para o Azure OpenAI, a Databricks optou por não utilizar o Abuse Monitoring, portanto nenhum prompt ou resposta é armazenado com o Azure OpenAI.
Para os espaços de trabalho da União Europeia (UE), os juízes do LLM usam modelos hospedados na UE. Todas as outras regiões usam modelos hospedados nos EUA.
A desativação dos recursos de assistência de IA alimentados por parceiros impedirá que o juiz do LLM ligue para modelos desenvolvidos por parceiros.
Os dados enviados para o juiz LLM não são utilizados para nenhum treinamento de modelo.
Os juízes do LLM têm como objetivo ajudar os clientes a avaliar seus aplicativos RAG e os resultados dos juízes do LLM não devem ser usados para treinar, melhorar nem ajustar um LLM.