Conjunto dataset referência para avaliação

Esta página descreve o esquema dataset de avaliação e inclui links para a referência SDK para alguns dos métodos e classes mais frequentemente utilizados.

Para informações gerais e exemplos de como usar o conjunto de dados de avaliação, consulte Avaliar o GenAI durante o desenvolvimento.

Esquema dataset de avaliação

O conjunto de dados de avaliação deve usar o esquema descrito nesta seção.

Campos principais

Os seguintes campos são usados tanto na abstração dataset de avaliação quanto se você passar os dados diretamente.

Coluna	Tipo de dados	Descrição	Obrigatório
`inputs`	`dict[Any, Any]`	Entradas para o seu aplicativo (por exemplo, pergunta do usuário, contexto), armazenadas como um JSON-seralizável `dict`.	Sim
`expectations`	`dict[Str, Any]`	O rótulo da verdade fundamental, armazenado como um JSON-seralizable `dict`.	Opcional

`expectations` chave reservada

expectations tem várias chaves reservadas que são usadas por juízes LLM integrados: guidelines, expected_facts e expected_response.

campo	Usado por	Descrição
`expected_facts`	`Correctness` juiz	Lista de fatos que devem aparecer
`expected_response`	`Correctness` juiz	Saída esperada exata ou similar
`guidelines`	`Guidelines` juiz	Regras de linguagem natural a serem seguidas
`expected_retrieved_context`	`document_recall` marcador	Documentos que devem ser recuperados

Campos adicionais

Os seguintes campos são usados pela abstração dataset de avaliação para rastrear a linhagem e o histórico de versões.

Coluna	Tipo de dados	Descrição	Obrigatório
`dataset_record_id`	string	O identificador exclusivo do registro.	Definido automaticamente se não for fornecido.
`create_time`	carimbo de data/hora	A hora em que o registro foi criado.	Definido automaticamente ao inserir ou atualizar.
`created_by`	string	O usuário que criou o registro.	Definido automaticamente ao inserir ou atualizar.
`last_update_time`	carimbo de data/hora	A hora em que o registro foi atualizado pela última vez.	Definido automaticamente ao inserir ou atualizar.
`last_updated_by`	string	O usuário que atualizou o registro pela última vez.	Definido automaticamente ao inserir ou atualizar.
`source`	struct	A fonte do registro dataset . Consulte o campo Origem.	Opcional
`tags`	dict [str, Qualquer]	tags de valor-chave para o registro dataset.	Opcional

Campo de origem

O campo source rastreia a origem de um registro dataset . Cada registro pode ter apenas um tipo de origem.

Fonte humana : Registro criado manualmente por uma pessoa.

Python
{
    "source": {
        "human": {
            "user_name": "jane.doe@company.com"  # user who created the record
        }
    }
}

Fonte do documento : Registro sintetizado a partir de um documento

Python
{
    "source": {
        "document": {
            "doc_uri": "s3://bucket/docs/product-manual.pdf",  # URI or path to the source document
            "content": "The first 500 chars of the document..."  # Optional, excerpt or full content from the document
        }
    }
}

Origem do rastreamento : Registro criado a partir de um rastreamento de produção

Python
{
    "source": {
        "trace": {
            "trace_id": "tr-abc123def456". # unique identifier of the source trace
        }
    }
}

Interface do usuário dataset de avaliaçãoMLflow

eval dataset ui

Referência SDK dataset de avaliaçãoMLflow

O SDK do conjunto de dados de avaliação fornece acesso programático para criar, gerenciar e usar conjuntos de dados para avaliação do aplicativo GenAI. Para obter detalhes, consulte a referência da API: mlflow.genai.datasets. Alguns dos métodos e classes mais frequentemente utilizados são os seguintes:

mlflow.genai.datasets.create_dataset
mlflow.genai.datasets.get_dataset
mlflow.genai.datasets.delete_dataset
EvaluationDataset. Esta classe fornece métodos para interagir e modificar conjuntos de dados de avaliação.

Esquema dataset de avaliação​

Campos principais​

expectations chave reservada​

Campos adicionais​

Campo de origem​

Interface do usuário dataset de avaliaçãoMLflow​

Referência SDK dataset de avaliaçãoMLflow​