Use juízes LLM integrados

Visão geral

Os juízes do LLM permitem que você avalie e monitore seus aplicativos GenAI usando o MLflow Traces. Esses juízes são um tipo de MLflow Scorer que utiliza Large Language Models para avaliação de qualidade diferenciada, complementando scorers baseados em código que lidam com métricas determinísticas.

:::importante Quando usar qual marcador: Quando usar pontuadores baseados em código:

Métricas determinísticas (latência, uso de tokens)
Validações baseadas em regras (verificações de formato, correspondência de padrões)
Lógica de negócios (cálculos de preços, verificações de limites)

Quando usar juízes LLM:

Avaliações de qualidade (correção, coerência, relevância)
Avaliações de segurança (toxicidade, conteúdo nocivo)
Avaliações complexas que exigem compreensão profunda de conteúdo de texto, áudio, imagens ou vídeo :::

Juízes LLM integrados

MLflow fornece juízes LLM integrados e apoiados por pesquisas para avaliar traços em dimensões essenciais de qualidade.

importante

comece com juízes integrados para avaliação rápida. Conforme suas necessidades evoluem:

Crie juízes LLM personalizados para critérios específicos de domínio
Crie marcadores personalizados baseados em código para lógica de negócios determinística

Como funcionam os juízes integrados

Uma vez aprovado um Rastreamento por evaluate() ou pelo serviço de monitoramento, o juiz integrado:

Analisa o trace para extrair campos e dados específicos que são usados para avaliar a qualidade
Chama um LLM para realizar a avaliação de qualidade com base nos campos e dados extraídos
Retorna a avaliação de qualidade como Feedback para anexar ao trace

Pré-requisitos

Execute o seguinte comando para instalar o MLflow 3.0 e o pacote OpenAI.
Bash
```
pip install --upgrade "mlflow[databricks]>=3.4.0" openai
```
Siga o início rápido do rastreamento para conectar seu ambiente de desenvolvimento a um experimento MLflow.

Etapa 1: criar um aplicativo de amostra para avaliar

Defina um aplicativo simples com um falso retriever.

Inicialize um cliente OpenAI para se conectar a LLMs hospedados pela Databricks ou LLMs hospedados pela OpenAI.

Databricks-hosted LLMs
OpenAI-hosted LLMs

Use o MLflow para obter um cliente OpenAI que se conecta aos LLMs hospedados pela Databricks. Selecione um modelo dentre os modelos de base disponíveis.

Python
import mlflow
from databricks.sdk import WorkspaceClient

# Enable MLflow's autologging to instrument your application with Tracing
mlflow.openai.autolog()

# Set up MLflow tracking to Databricks
mlflow.set_tracking_uri("databricks")
mlflow.set_experiment("/Shared/docs-demo")

# Create an OpenAI client that is connected to Databricks-hosted LLMs
w = WorkspaceClient()
client = w.serving_endpoints.get_open_ai_client()

# Select an LLM
model_name = "databricks-claude-sonnet-4"

Use o SDK nativo do OpenAI para se conectar a modelos hospedados pelo OpenAI. Selecione um modelo dentre os modelos OpenAI disponíveis.

Python
import mlflow
import os
import openai

# Ensure your OPENAI_API_KEY is set in your environment
# os.environ["OPENAI_API_KEY"] = "<YOUR_API_KEY>" # Uncomment and set if not globally configured

# Enable auto-tracing for OpenAI
mlflow.openai.autolog()

# Set up MLflow tracking to Databricks
mlflow.set_tracking_uri("databricks")
mlflow.set_experiment("/Shared/docs-demo")

# Create an OpenAI client connected to OpenAI SDKs
client = openai.OpenAI()

# Select an LLM
model_name = "gpt-4o-mini"

Defina o aplicativo:

Python
from mlflow.entities import Document
from typing import List

# Retriever function called by the sample app
@mlflow.trace(span_type="RETRIEVER")
def retrieve_docs(query: str) -> List[Document]:
    return [
        Document(
            id="sql_doc_1",
            page_content="SELECT is a fundamental SQL command used to retrieve data from a database. You can specify columns and use a WHERE clause to filter results.",
            metadata={"doc_uri": "http://example.com/sql/select_statement"},
        ),
        Document(
            id="sql_doc_2",
            page_content="JOIN clauses in SQL are used to combine rows from two or more tables, based on a related column between them. Common types include INNER JOIN, LEFT JOIN, and RIGHT JOIN.",
            metadata={"doc_uri": "http://example.com/sql/join_clauses"},
        ),
        Document(
            id="sql_doc_3",
            page_content="Aggregate functions in SQL, such as COUNT(), SUM(), AVG(), MIN(), and MAX(), perform calculations on a set of values and return a single summary value.  The most common aggregate function in SQL is COUNT().",
            metadata={"doc_uri": "http://example.com/sql/aggregate_functions"},
        ),
    ]


# Sample app to evaluate
@mlflow.trace
def sample_app(query: str):
    # 1. Retrieve documents based on the query
    retrieved_documents = retrieve_docs(query=query)
    retrieved_docs_text = "\n".join([doc.page_content for doc in retrieved_documents])

    # 2. Prepare messages for the LLM
    messages_for_llm = [
        {
            "role": "system",
            # Fake prompt to show how the various judges identify quality issues.
            "content": f"Answer the user's question based on the following retrieved context: {retrieved_docs_text}.  Do not mention the fact that provided context exists in your answer.  If the context is not relevant to the question, generate the best response you can.",
        },
        {
            "role": "user",
            "content": query,
        },
    ]

    # 3. Call LLM to generate the response
    return client.chat.completions.create(
        # Provide a valid model name for your LLM provider.
        model=model_name,
        messages=messages_for_llm,
    )
result = sample_app("what is select in sql?")
print(result)

Etapa 2: Criar uma avaliação de amostra dataset

nota

expected_facts só é necessário se você usar juízes integrados que exigem verdade básica.

Python
eval_dataset = [
    {
        "inputs": {"query": "What is the most common aggregate function in SQL?"},
        "expectations": {
            "expected_facts": ["Most common aggregate function in SQL is COUNT()."],
        },
    },
    {
        "inputs": {"query": "How do I use MLflow?"},
        "expectations": {
            "expected_facts": [
                "MLflow is a tool for managing and tracking machine learning experiments."
            ],
        },
    },
]
print(eval_dataset)

o passo 3: avaliação de execução com juízes LLM integrados

Agora, vamos executar a avaliação com os juízes que definimos acima.

Python
from mlflow.genai.scorers import (
    Correctness,
    ExpectationsGuidelines,
    Guidelines,
    RelevanceToQuery,
    RetrievalGroundedness,
    RetrievalRelevance,
    RetrievalSufficiency,
    Safety,
)


# Run built-in judges that require ground truth
mlflow.genai.evaluate(
    data=eval_dataset,
    predict_fn=sample_app,
    scorers=[
        Correctness(),
        # RelevanceToQuery(),
        # RetrievalGroundedness(),
        # RetrievalRelevance(),
        RetrievalSufficiency(),
        # Safety(),
    ],
)


# Run built-in judges that do NOT require ground truth
mlflow.genai.evaluate(
    data=eval_dataset,
    predict_fn=sample_app,
    scorers=[
        # Correctness(),
        RelevanceToQuery(),
        RetrievalGroundedness(),
        RetrievalRelevance(),
        # RetrievalSufficiency(),
        Safety(),
        Guidelines(name="does_not_mention", guidelines="The response not mention the fact that provided context exists.")
    ],
)

Traços de avaliação

UI de avaliação

Juízes disponíveis

Por default, cada juiz usa um LLMhospedadoDatabricks , projetado para realizar avaliações de qualidade do GenAI. Você pode alterar o modelo do juiz usando o argumento model na definição do juiz. O modelo deve ser especificado no formato <provider>:/<model-name>. Por exemplo:

Python
from mlflow.genai.scorers import Correctness

Correctness(model="databricks:/databricks-gpt-5-mini")

Para obter uma lista dos modelos compatíveis, consulte a documentação do MLflow.

Juiz	O que ele avalia?	Requer verdade fundamental?
`RelevanceToQuery`	A resposta do aplicativo aborda diretamente a entrada do usuário?	Não
`Safety`	A resposta do aplicativo evita conteúdo nocivo ou tóxico?	Não
`RetrievalGroundedness`	A resposta do aplicativo é baseada nas informações recuperadas?	Não
`RetrievalRelevance`	Os documentos recuperados são relevantes para a solicitação do usuário?	Não
`Correctness`	A resposta do aplicativo está correta em comparação com a verdade fundamental?	Sim
`RetrievalSufficiency`	Os documentos recuperados contêm todas as informações necessárias?	Sim
`Guidelines`	A resposta do aplicativo atende aos critérios especificados?	Não
`ExpectationsGuidelines`	A resposta do aplicativo atende aos critérios por exemplo?	Não

informações sobre os modelos que alimentam o site LLM judges

Os juízes do LLM podem utilizar serviços de terceiros para avaliar suas aplicações GenAI, incluindo o Azure OpenAI operado pela Microsoft.
Para o Azure OpenAI, a Databricks optou por não utilizar o Abuse Monitoring, portanto nenhum prompt ou resposta é armazenado com o Azure OpenAI.
Para os espaços de trabalho da União Europeia (UE), os juízes do LLM utilizam modelos hospedados na UE. Todas as outras regiões utilizam modelos hospedados nos EUA.
Desabilitar o recurso AI alimentado por parceiros impede que o juiz LLM chame modelos alimentados por parceiros. Você ainda pode usar juízes do LLM fornecendo seu próprio modelo.
Os juízes do LLM têm o objetivo de ajudar os clientes a avaliar seus agentes/aplicativos GenAI, e os resultados dos juízes do LLM não devem ser usados para treinar, melhorar ou ajustar um LLM.

Próximas etapas

Continue sua jornada com estas ações recomendadas e o tutorial.

Crie marcadores personalizados - Crie métricas baseadas em código para suas necessidades específicas
Criar pontuadores LLM personalizados - Projetar critérios de avaliação sofisticados usando LLMs
Avalie seu aplicativo - Veja juízes integrados em ação com um exemplo completo

Guia de referência

Explore a documentação detalhada dos conceitos e recursos mencionados neste guia.

Referência pré-construída de pontuadores & para juízes - Visão geral abrangente de todos os juízes disponíveis
Pontuadores - Entenda como os marcadores trabalham e seu papel na avaliação
Juízes do LLM - Saiba mais sobre a arquitetura subjacente do juiz

Visão geral​

Juízes LLM integrados​

Como funcionam os juízes integrados​

Pré-requisitos​

Etapa 1: criar um aplicativo de amostra para avaliar​

Etapa 2: Criar uma avaliação de amostra dataset​

o passo 3: avaliação de execução com juízes LLM integrados​

Juízes disponíveis​

informações sobre os modelos que alimentam o site LLM judges​

Próximas etapas​

Guia de referência​