Habilite a medição: infraestrutura de suporte

Este artigo detalha a infraestrutura necessária para medir a qualidade e como o site Databricks a fornece. Medir a qualidade não é fácil e requer um investimento significativo em infraestrutura.

Registro de rastreamento detalhado

O núcleo da lógica do seu aplicativo RAG é uma série de passos na cadeia. Para avaliar e depurar a qualidade, o senhor precisa implementar uma instrumentação que rastreie as entradas e saídas da cadeia, juntamente com cada passo da cadeia e suas entradas e saídas associadas. A instrumentação que você implementar deve funcionar da mesma forma no desenvolvimento e na produção.

No Databricks, o MLflow Tracing oferece esse recurso. Com o MLflow Trace Logging, o senhor instrumenta seu código em produção e obtém os mesmos traços durante o desenvolvimento e em produção. Os traços de produção são registros como parte da tabela de inferência.

UI de revisão das partes interessadas

Na maioria das vezes, como desenvolvedor, você não é um especialista de domínio no conteúdo do aplicativo que está desenvolvendo. Para coletar feedback de especialistas humanos que possam avaliar a qualidade de saída do seu aplicativo, você precisa de uma interface que permita que eles interajam com as versões anteriores do aplicativo e forneçam feedback detalhado. Além disso, você precisa de uma forma de carregar resultados de aplicativos específicos para que as partes interessadas avaliem sua qualidade.

Essa interface deve rastrear as saídas do aplicativo e o feedback associado de forma estruturada, armazenando o rastreamento completo do aplicativo e o feedback detalhado em uma tabela de dados.

No Databricks, o aplicativo Agent Evaluation Review fornece esse recurso.

Estrutura de métricas de qualidade, custo e latência

O senhor precisa de uma maneira de definir as métricas que medem de forma abrangente a qualidade de cada componente da sua cadeia e do aplicativo de ponta a ponta. O ideal é que a estrutura forneça um conjunto de métricas padrão prontas para uso, além de oferecer suporte à personalização, para que o senhor possa adicionar métricas que testem aspectos específicos da qualidade que sejam exclusivos da sua empresa.

No Databricks, a Avaliação de agentes fornece uma implementação pronta para uso, usando modelos de juiz LLM hospedados, para as métricas necessárias de qualidade, custo e latência.

Arnês de avaliação

O senhor precisa de uma maneira rápida e eficiente de obter resultados da sua cadeia para cada pergunta do seu conjunto de avaliação e, em seguida, avaliar cada resultado com base nas métricas relevantes. Esse arnês deve ser o mais eficiente possível, pois o senhor executará uma avaliação após cada experimento que tentar melhorar a qualidade.

Na Databricks, a Avaliação de agentes fornece um conjunto de avaliação que é integrado ao MLflow.

Gerenciamento do conjunto de avaliação

Seu conjunto de avaliação é um conjunto vivo de perguntas que você atualizará iterativamente ao longo do ciclo de vida de desenvolvimento e produção do seu aplicativo.

Na Databricks, o senhor pode gerenciar seu conjunto de análise como uma tabela Delta. Ao avaliar com MLflow, MLflow automaticamente log um Snapshot da versão do conjunto de avaliação usado.

Estrutura de acompanhamento de experimentos

Durante o desenvolvimento de seu aplicativo, você tentará muitos experimentos diferentes. Uma estrutura de acompanhamento de experimentos permite que o senhor acesse log cada experimento e acompanhe suas métricas em relação a outros experimentos.

Em Databricks, MLflow fornece recursos de acompanhamento de experimentos.

Estrutura de parametrização da cadeia

Muitos experimentos que você tenta exigem que você mantenha o código da cadeia constante enquanto itera em vários parâmetros usados pelo código. Você precisa de uma estrutura que permita fazer isso.

No Databricks, a configuração do modelo MLflow oferece esses recursos.

Monitoramento on-line

Uma vez implantado, o senhor precisa de uma maneira de monitorar a integridade do aplicativo e a qualidade, o custo e a latência contínuos.

Em Databricks, o servindo modelo fornece monitoramento da integridade do aplicativo e o monitoramento da lakehouse fornece resultados contínuos para um painel e monitora a qualidade, o custo e a latência.