Como monitorar a qualidade do seu modelo externo no tráfego de produção

info

Visualização

Esse recurso está em Public Preview.

nota

Este artigo descreve um produto antigo com funcionalidade limitada. A Databricks recomenda que você use o Monitor GenAI em produção .

Este artigo descreve como monitorar a qualidade de um modelo externo no tráfego de produção enviado a um modelo básico para o qual as tabelas de inferência foram ativadas usando o AI Gateway.

O monitoramento on-line é um aspecto crucial para garantir que seu modelo esteja funcionando como pretendido com solicitações do mundo real. Usando o Notebook fornecido abaixo, o senhor pode executar a Avaliação de agentes continuamente nas solicitações atendidas por meio de um modelo externo endpoint. O Notebook gera um painel que exibe as métricas de qualidade dos resultados do seu modelo nas solicitações de produção. O painel permite que o senhor divida as métricas por diferentes dimensões, inclusive por tempo, status de aprovação/reprovação e tópico da solicitação de entrada (por exemplo, para entender se tópicos específicos estão correlacionados com resultados de menor qualidade). Além disso, você pode se aprofundar nas solicitações individuais com respostas de baixa qualidade para depurá-las ainda mais. Todos os artefatos, como o painel, são totalmente personalizáveis.

painel de monitoramento on-line

Requisitos

O recurso AI com tecnologia de parceiros deve ser habilitado para seu workspace.
As tabelas de inferência devem ser ativadas por meio do AI Gateway para seu endpoint.

Processe continuamente o tráfego de produção por meio da avaliação de agentes

O exemplo de Notebook a seguir ilustra como executar a Avaliação do agente na solicitação logs enviada a um Modelo básico com Tabelas de inferência ativadas por meio do AI Gateway. Isso inclui modelos externos, como o OpenAI ou modelos de taxa de transferência de provisionamento. Para executar o Notebook, siga estas etapas:

...

Importe o Notebook em seu site workspace (instruções). O senhor pode clicar no botão "Copiar link para importação" abaixo para obter um URL para a importação.
Preencha os parâmetros necessários na parte superior do Notebook importado.
- O nome do seu endpoint de serviço com Inference Tables ativadas via AI Gateway.
- Uma taxa de amostragem entre 0,0 e 1,0 para solicitações de amostra. Use uma taxa mais baixa para endpoints com alto volume de tráfego.
- (Opcional) Uma pasta workspace para armazenar artefatos gerados (como dashboards). O site default é a casa da massa.
- (Opcional) Uma lista de tópicos para categorizar as solicitações de entrada. A default é uma lista que consiste em um único tópico abrangente.
Clique em executar tudo no Notebook importado. Isso fará um processamento inicial de sua produção logs dentro de uma janela de 30 dias e inicializará o painel que resume as métricas de qualidade.
Clique em programar para criar um Job para executar o Notebook periodicamente. O Job processará de forma incremental sua produção logs e manterá o painel atualizado.

O Notebook requer o site serverless compute ou um clustering que esteja executando o Databricks Runtime 15.2 ou o acima. Ao monitorar continuamente o tráfego de produção em um endpoint com um grande número de solicitações, recomendamos que o senhor defina uma programação mais frequente. Por exemplo, uma programação por hora funcionaria bem para um site endpoint com mais de 10.000 solicitações por hora e uma taxa de amostragem de 10%.

execução Avaliação do agente no tráfego de produção Notebook

Abrir notebook em uma nova aba

Criar alerta sobre avaliação de métricas

Depois de programar o Notebook para ser executado periodicamente, o senhor pode adicionar um alerta para ser notificado quando a qualidade das métricas cair abaixo do esperado. Esses alertas são criados e usados da mesma forma que outros alertas do site Databricks SQL. Primeiro, crie uma consultaDatabricks SQL na tabela de solicitações de avaliação log gerada pelo exemplo do Notebook. O código a seguir mostra um exemplo de consulta na tabela de solicitações de avaliação, filtrando as solicitações da última hora:

SQL
SELECT
  `request_date`,
  AVG(pass_indicator) as avg_pass_rate
FROM (
  SELECT
    *,
    CASE
      WHEN `response/overall_assessment/rating` = 'yes' THEN 1
      WHEN `response/overall_assessment/rating` = 'no' THEN 0
      ELSE NULL
    END AS pass_indicator
  -- The eval requests log table is generated by the example notebook
  FROM {eval_requests_log_table_name}
  WHERE `request_date` >= CURRENT_TIMESTAMP() - INTERVAL 1 DAY
)
GROUP BY ALL

Em seguida, crie um alertaDatabricks SQL para avaliar a consulta em uma frequência desejada e envie uma notificação se o alerta for acionado. A imagem a seguir mostra um exemplo de configuração para enviar um alerta quando a taxa geral de aprovação cair abaixo de 80%.

configuração de alerta de monitoramento on-line

Por default, uma notificação email é enviada. Você também pode configurar um webhook ou enviar notificações para outros aplicativos, como Slack ou PagerDuty.

Requisitos​

Processe continuamente o tráfego de produção por meio da avaliação de agentes​

execução Avaliação do agente no tráfego de produção Notebook

Criar alerta sobre avaliação de métricas​

Requisitos

Processe continuamente o tráfego de produção por meio da avaliação de agentes

Criar alerta sobre avaliação de métricas