Pular para o conteúdo principal

Conjunto dataset referência para avaliação

Esta página descreve o esquema dataset de avaliação e inclui links para a referência SDK para alguns dos métodos e classes mais frequentemente utilizados.

Para informações gerais e exemplos de como usar o conjunto de dados de avaliação, consulte Avaliar o GenAI durante o desenvolvimento.

Esquema dataset de avaliação

O conjunto de dados de avaliação deve usar o esquema descrito nesta seção.

Campos principais

Os seguintes campos são usados tanto na abstração dataset de avaliação quanto se você passar os dados diretamente.

Coluna

Tipo de dados

Descrição

Obrigatório

inputs

dict[Any, Any]

Entradas para o seu aplicativo (por exemplo, pergunta do usuário, contexto), armazenadas como um JSON-seralizável dict.

Sim

expectations

dict[Str, Any]

O rótulo da verdade fundamental, armazenado como um JSON-seralizable dict.

Opcional

expectations chave reservada

expectations tem várias chaves reservadas que são usadas por juízes LLM integrados: guidelines, expected_facts e expected_response.

campo

Usado por

Descrição

expected_facts

Correctness juiz

Lista de fatos que devem aparecer

expected_response

Correctness juiz

Saída esperada exata ou similar

guidelines

Guidelines juiz

Regras de linguagem natural a serem seguidas

expected_retrieved_context

document_recall marcador

Documentos que devem ser recuperados

Campos adicionais

Os seguintes campos são usados pela abstração dataset de avaliação para rastrear a linhagem e o histórico de versões.

Coluna

Tipo de dados

Descrição

Obrigatório

dataset_record_id

string

O identificador exclusivo do registro.

Definido automaticamente se não for fornecido.

create_time

carimbo de data/hora

A hora em que o registro foi criado.

Definido automaticamente ao inserir ou atualizar.

created_by

string

O usuário que criou o registro.

Definido automaticamente ao inserir ou atualizar.

last_update_time

carimbo de data/hora

A hora em que o registro foi atualizado pela última vez.

Definido automaticamente ao inserir ou atualizar.

last_updated_by

string

O usuário que atualizou o registro pela última vez.

Definido automaticamente ao inserir ou atualizar.

source

struct

A fonte do registro dataset . Consulte o campo Origem.

Opcional

tags

dict [str, Qualquer]

tags de valor-chave para o registro dataset.

Opcional

Campo de origem

O campo source rastreia a origem de um registro dataset . Cada registro pode ter apenas um tipo de origem.

Fonte humana : Registro criado manualmente por uma pessoa.

Python
{
"source": {
"human": {
"user_name": "jane.doe@company.com" # user who created the record
}
}
}

Fonte do documento : Registro sintetizado a partir de um documento

Python
{
"source": {
"document": {
"doc_uri": "s3://bucket/docs/product-manual.pdf", # URI or path to the source document
"content": "The first 500 chars of the document..." # Optional, excerpt or full content from the document
}
}
}

Origem do rastreamento : Registro criado a partir de um rastreamento de produção

Python
{
"source": {
"trace": {
"trace_id": "tr-abc123def456". # unique identifier of the source trace
}
}
}

Interface do usuário dataset de avaliação MLflow

A tab Conjunto de dados" na página de experimentos MLflow fornece uma interface visual para gerenciar seu conjunto de dados de avaliação e seus registros. A página utiliza um layout de painel dividido: o painel esquerdo lista todos os conjuntos de dados de avaliação associados ao experimento, e o painel direito mostra os registros do dataset selecionado. Você pode pesquisar, classificar, criar, editar e excluir conjuntos de dados e registros diretamente da interface do usuário, sem escrever nenhum código.

tabConjunto de dados de avaliação

No painel direito, você pode editar as entradas e expectativas dos registros diretamente no arquivo, adicionar tags a registros individuais, view o rastreamento de origem para registros criados a partir de rastreamentos de produção e obter um trecho de código Python pronto para uso para executar uma avaliação no dataset.

Visão geral da interface do usuário dataset de avaliação

  1. Na barra lateral, clique em Experimentos e abra seu experimento.

  2. Clique na tab do conjunto de dados . O painel esquerdo mostra todos os dados de avaliação para este experimento. Por default, os conjuntos de dados são classificados pela data da última atualização. Utilize a barra de pesquisa para filtrar por nome dataset .

  3. Clique no nome de um dataset para view seus registros no painel direito. Você pode precisar rolar a tela para a direita e para a esquerda para view todas as colunas.

  4. Para ampliar o painel direito, passe o cursor sobre o separador de painéis e clique na seta apontando para a esquerda. Clique na seta novamente para retornar à view default .

    Passe o cursor sobre o separador de painéis para ampliar o painel da direita.

  5. Para selecionar as colunas que aparecem, clique no botão Colunas . Selecione ou desmarque as caixas de seleção. Quando terminar, clique em qualquer lugar do menu suspenso.

    Selecione as colunas que deseja exibir.

Criar um datasetde avaliação

  1. Na tab de dados , clique em Criar dataset .

    Botão Criar dataset

  2. Na caixa de diálogo, clique em Selecionar esquema para escolher um esquema Unity Catalog onde você tenha permissões CREATE TABLE .

  3. Insira um nome de tabela para o dataset. Uma pré-visualização do nome completo dataset (catalog.schema.table_name) aparece abaixo da entrada.

  4. Clique em Criar conjunto de dados .

Adicionar registros dataset

Para adicionar rastreamentos existentes a um dataset de avaliação, consulte Criar um dataset usando a interface do usuário.

Editar registros dataset

O vídeo mostra os seguintes passos:

  1. Selecione um dataset no painel esquerdo para view seus registros.
  2. Você pode editar os campos Entradas e Expectativas diretamente na tabela. Esses campos aceitam JSON e validam sua entrada enquanto você digita.
  3. Para adicionar uma nova linha, clique em Adicionar registro . Uma nova linha com valores default aparece no topo da tabela.
  4. Para salvar todas as alterações pendentes, clique em Salvar alterações no canto superior direito.

Como editar registros dataset .

Excluir registros ou conjunto de dados

  • Para excluir registros, use as caixas de seleção para selecionar um ou mais registros e clique em Excluir (N) .

Excluir registro.

  • Para excluir um dataset, clique em Mostrar detalhes para abrir o painel de detalhes e, em seguida, clique em Excluir dataset na parte inferior do painel. Você também pode excluir um dataset do menu kebab.Ícone do menu Kebab. na lista dataset .

dataset de avaliação exibe o painel de detalhes.

Ver detalhes dataset

Para view os metadados do dataset, clique em Mostrar detalhes no canto superior direito. Um painel é aberto, incluindo o nome dataset , ID, data de criação, última atualização, fonte e um link para view o dataset no Unity Catalog.

Adicionar e excluir tags

Na coluna de etiquetas , clique em uma tag para editá-la ou clique em Adicionar tags para adicionar uma nova tag.

Edite as tags na interface do usuário.

visualizar rastreamento de origem

Na coluna Origem , clique no rastreamento para abrir uma janela interativa que mostra o rastreamento completo e as avaliações.

Visualize o rastreamento da origem na interface do usuário.

execução de uma avaliação usando o dataset

Para abrir uma caixa de diálogo com um código Python padrão que carrega o dataset e executa mlflow.genai.evaluate() com um conjunto default de avaliadores:

  1. Clique em executar uma avaliação .

    Botão de avaliação de execução.

  2. Clique no ícone de copiar, mostrado na imagem a seguir, para copiar o trecho para a sua área de transferência.

    Copiar trecho de código.

Referência SDK dataset de avaliaçãoMLflow

O SDK do conjunto de dados de avaliação fornece acesso programático para criar, gerenciar e usar conjuntos de dados para avaliação do aplicativo GenAI. Para obter detalhes, consulte a referência da API: mlflow.genai.datasets. Alguns dos métodos e classes mais frequentemente utilizados são os seguintes: