メインコンテンツまでスキップ

評価データセット参照

このページでは、評価データセット スキーマについて説明し、最も頻繁に使用されるメソッドとクラスのいくつかの SDK リファレンスへのリンクが含まれています。

評価データセットの使用方法に関する一般情報と例については、 「評価ハーネス」を参照してください。

評価データセットスキーマ

評価データセットでは、このセクションで説明されているスキーマを使用する必要があります。

コアフィールド

次のフィールドは、評価データセットの抽象化でも、データを直接渡す場合でも使用されます。

データ型

説明

必須

inputs

dict[Any, Any]

アプリの入力 (ユーザーの質問、コンテキストなど) は、JSON 形式で選択可能な dictとして保存されます。

Yes

expectations

dict[Str, Any]

グラウンド トゥルース ラベルは、JSON シリアル化可能な dict.

オプション

expectations 予約済みキー

expectations 組み込み LLM ジャッジによって使用される予約済みキーがいくつかあります: guidelinesexpected_facts 、およびexpected_response

フィールド

使用者

説明

expected_facts

Correctness ジャッジ

表示すべき事実のリスト

expected_response

Correctness ジャッジ

正確または類似の期待出力

guidelines

Guidelines ジャッジ

従うべき自然言語のルール

expected_retrieved_context

document_recall スコアラー

取得する必要があるドキュメント

追加フィールド

次のフィールドは、評価 データセットの抽象化レイヤーによってリネージとバージョン履歴を追跡するために使用されます。

データ型

説明

必須

dataset_record_id

string

レコードの一意の識別子。

指定しない場合は自動的に設定されます。

create_time

timestamp

レコードが作成された時刻。

挿入時や更新時に自動的に設定されます。

created_by

string

レコードを作成したユーザー。

挿入時や更新時に自動的に設定されます。

last_update_time

timestamp

レコードが最後に更新された時刻。

挿入時や更新時に自動的に設定されます。

last_updated_by

string

レコードを最後に更新したユーザー。

挿入時や更新時に自動的に設定されます。

source

struct

データセット レコードのソース。ソースフィールドを参照してください。

オプション

tags

dict[str, Any]

データセット レコードのキーと値のタグ。

オプション

ソースフィールド

sourceフィールドは、データセット レコードの取得元を追跡します。各レコードには 1 つのソース タイプのみ を含めることができます。

ヒューマンソース : 人が手動で作成したレコード

Python
{
"source": {
"human": {
"user_name": "jane.doe@company.com" # user who created the record
}
}
}

文書ソース : 文書から合成されたレコード

Python
{
"source": {
"document": {
"doc_uri": "s3://bucket/docs/product-manual.pdf", # URI or path to the source document
"content": "The first 500 chars of the document..." # Optional, excerpt or full content from the document
}
}
}

トレースソース : 本番運用トレースから作成されたレコード

Python
{
"source": {
"trace": {
"trace_id": "tr-abc123def456". # unique identifier of the source trace
}
}
}

MLflow 評価データセット UI

評価 データセット UI

MLflow 評価データセット SDK リファレンス

評価データセット SDK は、GenAI アプリ評価用のデータセットを作成、管理、使用するためのプログラムによるアクセスを提供します。詳細については、API リファレンスmlflow.genai.datasetsを参照してください。最も頻繁に使用されるメソッドとクラスは次のとおりです。