Conjunto dataset referência para avaliação
Esta página descreve o esquema dataset de avaliação e inclui links para a referência SDK para alguns dos métodos e classes mais frequentemente utilizados.
Para informações gerais e exemplos de como usar o conjunto de dados de avaliação, consulte a ferramenta de avaliação.
Esquema dataset de avaliação
O conjunto de dados de avaliação deve usar o esquema descrito nesta seção.
Campos principais
Os seguintes campos são usados tanto na abstração dataset de avaliação quanto se você passar os dados diretamente.
Coluna | Tipo de dados | Descrição | Obrigatório |
|---|---|---|---|
|
| Entradas para o seu aplicativo (por exemplo, pergunta do usuário, contexto), armazenadas como um JSON-seralizável | Sim |
|
| O rótulo da verdade fundamental, armazenado como um JSON-seralizable | Opcional |
expectations chave reservada
expectations tem várias chaves reservadas que são usadas por juízes LLM integrados: guidelines, expected_facts e expected_response.
campo | Usado por | Descrição |
|---|---|---|
|
| Lista de fatos que devem aparecer |
|
| Saída esperada exata ou similar |
|
| Regras de linguagem natural a serem seguidas |
|
| Documentos que devem ser recuperados |
Campos adicionais
Os seguintes campos são usados pela abstração dataset de avaliação para rastrear a linhagem e o histórico de versões.
Coluna | Tipo de dados | Descrição | Obrigatório |
|---|---|---|---|
| string | O identificador exclusivo do registro. | Definido automaticamente se não for fornecido. |
| carimbo de data/hora | A hora em que o registro foi criado. | Definido automaticamente ao inserir ou atualizar. |
| string | O usuário que criou o registro. | Definido automaticamente ao inserir ou atualizar. |
| carimbo de data/hora | A hora em que o registro foi atualizado pela última vez. | Definido automaticamente ao inserir ou atualizar. |
| string | O usuário que atualizou o registro pela última vez. | Definido automaticamente ao inserir ou atualizar. |
| struct | A fonte do registro dataset . Consulte o campo Origem. | Opcional |
| dict [str, Qualquer] | tags de valor-chave para o registro dataset. | Opcional |
Campo de origem
O campo source rastreia a origem de um registro dataset . Cada registro pode ter apenas um tipo de origem.
Fonte humana : Registro criado manualmente por uma pessoa.
{
"source": {
"human": {
"user_name": "jane.doe@company.com" # user who created the record
}
}
}
Fonte do documento : Registro sintetizado a partir de um documento
{
"source": {
"document": {
"doc_uri": "s3://bucket/docs/product-manual.pdf", # URI or path to the source document
"content": "The first 500 chars of the document..." # Optional, excerpt or full content from the document
}
}
}
Origem do rastreamento : Registro criado a partir de um rastreamento de produção
{
"source": {
"trace": {
"trace_id": "tr-abc123def456". # unique identifier of the source trace
}
}
}
Interface do usuário dataset de avaliaçãoMLflow

Referência SDK dataset de avaliaçãoMLflow
O SDK do conjunto de dados de avaliação fornece acesso programático para criar, gerenciar e usar conjuntos de dados para avaliação do aplicativo GenAI. Para obter detalhes, consulte a referência da API: mlflow.genai.datasets. Alguns dos métodos e classes mais frequentemente utilizados são os seguintes:
mlflow.genai.datasets.create_datasetmlflow.genai.datasets.get_datasetmlflow.genai.datasets.delete_datasetEvaluationDataset. Esta classe fornece métodos para interagir e modificar conjuntos de dados de avaliação.