Permitir a medição: Infraestrutura de apoio
Este artigo detalha a infraestrutura necessária para medir a qualidade e como o site Databricks a fornece. Medir a qualidade não é fácil e requer um investimento significativo em infraestrutura.
Registro detalhado de rastreamento
O núcleo da lógica do seu aplicativo RAG é uma série de passos na cadeia. Para avaliar e depurar a qualidade, o senhor precisa implementar uma instrumentação que rastreie as entradas e saídas da cadeia, juntamente com cada passo da cadeia e suas entradas e saídas associadas. A instrumentação que o senhor implementa deve funcionar da mesma forma no desenvolvimento e na produção.
No Databricks, o MLflow Tracing oferece esse recurso. Com o MLflow Trace Logging, o senhor instrumenta seu código em produção e obtém os mesmos traços durante o desenvolvimento e em produção. Os traços de produção são registros como parte da tabela de inferência.
Revisão das partes interessadas UI
Na maioria das vezes, como desenvolvedor, o senhor não é um especialista no domínio do conteúdo do aplicativo que está desenvolvendo. Para coletar feedback de especialistas humanos que possam avaliar a qualidade do resultado do seu aplicativo, o senhor precisa de uma interface que permita que eles interajam com as primeiras versões do aplicativo e forneçam feedback detalhado. Além disso, o senhor precisa de uma maneira de carregar resultados de aplicativos específicos para que as partes interessadas avaliem sua qualidade.
Essa interface deve rastrear os resultados do aplicativo e o feedback associado de forma estruturada, armazenando o rastreamento completo do aplicativo e o feedback detalhado em uma tabela de dados.
No Databricks, o aplicativo Agent Evaluation Review fornece esse recurso.
Estrutura de métricas de qualidade, custo e latência
O senhor precisa de uma maneira de definir as métricas que medem de forma abrangente a qualidade de cada componente da sua cadeia e do aplicativo de ponta a ponta. O ideal é que a estrutura forneça um conjunto de métricas padrão prontas para uso, além de oferecer suporte à personalização, para que o senhor possa adicionar métricas que testem aspectos específicos da qualidade que sejam exclusivos da sua empresa.
No Databricks, a Avaliação de agentes fornece uma implementação pronta para uso, usando modelos de juiz LLM hospedados, para as métricas necessárias de qualidade, custo e latência.
Armação de avaliação
O senhor precisa de uma maneira rápida e eficiente de obter resultados da sua cadeia para cada pergunta do seu conjunto de avaliação e, em seguida, avaliar cada resultado com base nas métricas relevantes. Esse arnês deve ser o mais eficiente possível, pois o senhor executará uma avaliação após cada experimento que tentar melhorar a qualidade.
Na Databricks, a Avaliação de agentes fornece um conjunto de avaliação que é integrado ao MLflow.
Gerenciamento do conjunto de avaliações
O seu conjunto de avaliação é um conjunto de perguntas vivo e dinâmico que será atualizado iterativamente ao longo do ciclo de vida de desenvolvimento e produção do seu aplicativo.
Na Databricks, o senhor pode gerenciar seu conjunto de análise como uma tabela Delta. Ao avaliar com MLflow, MLflow automaticamente log a Snapshot da versão do conjunto de avaliação usado.
Estrutura de acompanhamento de experimentos
Durante o desenvolvimento do aplicativo, o senhor fará muitos experimentos diferentes. Uma estrutura de acompanhamento de experimentos permite que o senhor acesse log cada experimento e acompanhe suas métricas em relação a outros experimentos.
Em Databricks, MLflow fornece recursos de acompanhamento de experimentos.
Estrutura de parametrização da cadeia
Muitos experimentos que o senhor tenta exigem que mantenha o código da cadeia constante enquanto itera em vários parâmetros usados pelo código. O senhor precisa de uma estrutura que lhe permita fazer isso.
No Databricks, a configuração do modelo MLflow oferece esses recursos.
Monitoramento on-line
Uma vez implantado, o senhor precisa de uma maneira de monitorar a integridade do aplicativo e a qualidade, o custo e a latência contínuos.
Em Databricks, o modelo de serviço fornece monitoramento da integridade do aplicativo e o monitoramentolakehouse fornece saídas contínuas para um painel e monitora a qualidade, o custo e a latência.