Permitir a medição: Infraestrutura de apoio

Este artigo detalha a infraestrutura necessária para medir a qualidade e como o site Databricks a fornece. Medir a qualidade não é fácil e requer um investimento significativo em infraestrutura.

Registro detalhado de rastreamento

O núcleo da lógica do seu aplicativo RAG é uma série de passos na cadeia. Para avaliar e depurar a qualidade, o senhor precisa implementar uma instrumentação que rastreie as entradas e saídas da cadeia, juntamente com cada passo da cadeia e suas entradas e saídas associadas. A instrumentação que o senhor implementa deve funcionar da mesma forma no desenvolvimento e na produção.

No Databricks, o MLflow Tracing oferece esse recurso. Com o MLflow Trace Logging, o senhor instrumenta seu código em produção e obtém os mesmos traços durante o desenvolvimento e em produção. Os traços de produção são registros como parte da tabela de inferência.

Revisão das partes interessadas UI

Na maioria das vezes, como desenvolvedor, o senhor não é um especialista no domínio do conteúdo do aplicativo que está desenvolvendo. Para coletar feedback de especialistas humanos que possam avaliar a qualidade do resultado do seu aplicativo, o senhor precisa de uma interface que permita que eles interajam com as primeiras versões do aplicativo e forneçam feedback detalhado. Além disso, o senhor precisa de uma maneira de carregar resultados de aplicativos específicos para que as partes interessadas avaliem sua qualidade.

Essa interface deve rastrear os resultados do aplicativo e o feedback associado de forma estruturada, armazenando o rastreamento completo do aplicativo e o feedback detalhado em uma tabela de dados.

No Databricks, o aplicativo Agent Evaluation Review fornece esse recurso.

Estrutura de métricas de qualidade, custo e latência

O senhor precisa de uma maneira de definir as métricas que medem de forma abrangente a qualidade de cada componente da sua cadeia e do aplicativo de ponta a ponta. O ideal é que a estrutura forneça um conjunto de métricas padrão prontas para uso, além de oferecer suporte à personalização, para que o senhor possa adicionar métricas que testem aspectos específicos da qualidade que sejam exclusivos da sua empresa.

No Databricks, a Avaliação de agentes fornece uma implementação pronta para uso, usando modelos de juiz LLM hospedados, para as métricas necessárias de qualidade, custo e latência.

Armação de avaliação

O senhor precisa de uma maneira rápida e eficiente de obter resultados da sua cadeia para cada pergunta do seu conjunto de avaliação e, em seguida, avaliar cada resultado com base nas métricas relevantes. Esse arnês deve ser o mais eficiente possível, pois o senhor executará uma avaliação após cada experimento que tentar melhorar a qualidade.

Na Databricks, a Avaliação de agentes fornece um conjunto de avaliação que é integrado ao MLflow.

Gerenciamento do conjunto de avaliações

O seu conjunto de avaliação é um conjunto de perguntas vivo e dinâmico que será atualizado iterativamente ao longo do ciclo de vida de desenvolvimento e produção do seu aplicativo.

Na Databricks, o senhor pode gerenciar seu conjunto de análise como uma tabela Delta. Ao avaliar com MLflow, MLflow automaticamente log a Snapshot da versão do conjunto de avaliação usado.

Estrutura de acompanhamento de experimentos

Durante o desenvolvimento do aplicativo, o senhor fará muitos experimentos diferentes. Uma estrutura de acompanhamento de experimentos permite que o senhor acesse log cada experimento e acompanhe suas métricas em relação a outros experimentos.

Em Databricks, MLflow fornece recursos de acompanhamento de experimentos.

Estrutura de parametrização da cadeia

Muitos experimentos que o senhor tenta exigem que mantenha o código da cadeia constante enquanto itera em vários parâmetros usados pelo código. O senhor precisa de uma estrutura que lhe permita fazer isso.

No Databricks, a configuração do modelo MLflow oferece esses recursos.

Monitoramento on-line

Uma vez implantado, o senhor precisa de uma maneira de monitorar a integridade do aplicativo e a qualidade, o custo e a latência contínuos.

Em Databricks, o modelo de serviço fornece monitoramento da integridade do aplicativo e o monitoramentolakehouse fornece saídas contínuas para um painel e monitora a qualidade, o custo e a latência.