Pular para o conteúdo principal

Conjunto dataset referência para avaliação

Esta página descreve o esquema dataset de avaliação e inclui links para a referência SDK para alguns dos métodos e classes mais frequentemente utilizados.

Para informações gerais e exemplos de como usar o conjunto de dados de avaliação, consulte a ferramenta de avaliação.

Esquema dataset de avaliação

O conjunto de dados de avaliação deve usar o esquema descrito nesta seção.

Campos principais

Os seguintes campos são usados tanto na abstração dataset de avaliação quanto se você passar os dados diretamente.

Coluna

Tipo de dados

Descrição

Obrigatório

inputs

dict[Any, Any]

Entradas para o seu aplicativo (por exemplo, pergunta do usuário, contexto), armazenadas como um JSON-seralizável dict.

Sim

expectations

dict[Str, Any]

O rótulo da verdade fundamental, armazenado como um JSON-seralizable dict.

Opcional

expectations chave reservada

expectations tem várias chaves reservadas que são usadas por juízes LLM integrados: guidelines, expected_facts e expected_response.

campo

Usado por

Descrição

expected_facts

Correctness juiz

Lista de fatos que devem aparecer

expected_response

Correctness juiz

Saída esperada exata ou similar

guidelines

Guidelines juiz

Regras de linguagem natural a serem seguidas

expected_retrieved_context

document_recall marcador

Documentos que devem ser recuperados

Campos adicionais

Os seguintes campos são usados pela abstração dataset de avaliação para rastrear a linhagem e o histórico de versões.

Coluna

Tipo de dados

Descrição

Obrigatório

dataset_record_id

string

O identificador exclusivo do registro.

Definido automaticamente se não for fornecido.

create_time

carimbo de data/hora

A hora em que o registro foi criado.

Definido automaticamente ao inserir ou atualizar.

created_by

string

O usuário que criou o registro.

Definido automaticamente ao inserir ou atualizar.

last_update_time

carimbo de data/hora

A hora em que o registro foi atualizado pela última vez.

Definido automaticamente ao inserir ou atualizar.

last_updated_by

string

O usuário que atualizou o registro pela última vez.

Definido automaticamente ao inserir ou atualizar.

source

struct

A fonte do registro dataset . Consulte o campo Origem.

Opcional

tags

dict [str, Qualquer]

tags de valor-chave para o registro dataset.

Opcional

Campo de origem

O campo source rastreia a origem de um registro dataset . Cada registro pode ter apenas um tipo de origem.

Fonte humana : Registro criado manualmente por uma pessoa.

Python
{
"source": {
"human": {
"user_name": "jane.doe@company.com" # user who created the record
}
}
}

Fonte do documento : Registro sintetizado a partir de um documento

Python
{
"source": {
"document": {
"doc_uri": "s3://bucket/docs/product-manual.pdf", # URI or path to the source document
"content": "The first 500 chars of the document..." # Optional, excerpt or full content from the document
}
}
}

Origem do rastreamento : Registro criado a partir de um rastreamento de produção

Python
{
"source": {
"trace": {
"trace_id": "tr-abc123def456". # unique identifier of the source trace
}
}
}

Interface do usuário dataset de avaliaçãoMLflow

eval dataset ui

Referência SDK dataset de avaliaçãoMLflow

O SDK do conjunto de dados de avaliação fornece acesso programático para criar, gerenciar e usar conjuntos de dados para avaliação do aplicativo GenAI. Para obter detalhes, consulte a referência da API: mlflow.genai.datasets. Alguns dos métodos e classes mais frequentemente utilizados são os seguintes: