評価データセット参照
このページでは、評価データセット スキーマについて説明し、最も頻繁に使用されるメソッドとクラスのいくつかの SDK リファレンスへのリンクが含まれています。
評価データセットの使用方法に関する一般情報と例については、 「評価ハーネス」を参照してください。
評価データセットスキーマ
評価データセットでは、このセクションで説明されているスキーマを使用する必要があります。
コアフィールド
次のフィールドは、評価データセットの抽象化でも、データを直接渡す場合でも使用されます。
列 | データ型 | 説明 | 必須 |
|---|---|---|---|
|
| アプリの入力 (ユーザーの質問、コンテキストなど) は、JSON 形式で選択可能な | Yes |
|
| グラウンド トゥルース ラベルは、JSON シリアル化可能な | オプション |
expectations 予約済みキー
expectations 組み込み LLM ジャッジによって使用される予約済みキーがいくつかあります: guidelines 、 expected_facts 、およびexpected_response 。
フィールド | 使用者 | 説明 |
|---|---|---|
|
| 表示すべき事実のリスト |
|
| 正確または類似の期待出力 |
|
| 従うべき自然言語のルール |
|
| 取得する必要があるドキュメント |
追加フィールド
次のフィールドは、評価 データセットの抽象化レイヤーによってリネージとバージョン履歴を追跡するために使用されます。
列 | データ型 | 説明 | 必須 |
|---|---|---|---|
| string | レコードの一意の識別子。 | 指定しない場合は自動的に設定されます。 |
| timestamp | レコードが作成された時刻。 | 挿入時や更新時に自動的に設定されます。 |
| string | レコードを作成したユーザー。 | 挿入時や更新時に自動的に設定されます。 |
| timestamp | レコードが最後に更新された時刻。 | 挿入時や更新時に自動的に設定されます。 |
| string | レコードを最後に更新したユーザー。 | 挿入時や更新時に自動的に設定されます。 |
| struct | データセット レコードのソース。ソースフィールドを参照してください。 | オプション |
| dict[str, Any] | データセット レコードのキーと値のタグ。 | オプション |
ソースフィールド
sourceフィールドは、データセット レコードの取得元を追跡します。各レコードには 1 つのソース タイプのみ を含めることができます。
ヒューマンソース : 人が手動で作成したレコード
{
"source": {
"human": {
"user_name": "jane.doe@company.com" # user who created the record
}
}
}
文書ソース : 文書から合成されたレコード
{
"source": {
"document": {
"doc_uri": "s3://bucket/docs/product-manual.pdf", # URI or path to the source document
"content": "The first 500 chars of the document..." # Optional, excerpt or full content from the document
}
}
}
トレースソース : 本番運用トレースから作成されたレコード
{
"source": {
"trace": {
"trace_id": "tr-abc123def456". # unique identifier of the source trace
}
}
}
MLflow 評価データセット UI

MLflow 評価データセット SDK リファレンス
評価データセット SDK は、GenAI アプリ評価用のデータセットを作成、管理、使用するためのプログラムによるアクセスを提供します。詳細については、API リファレンスmlflow.genai.datasetsを参照してください。最も頻繁に使用されるメソッドとクラスは次のとおりです。
mlflow.genai.datasets.create_datasetmlflow.genai.datasets.get_datasetmlflow.genai.datasets.delete_datasetEvaluationDataset。このクラスは、評価データセットを操作および変更するためのメソッドを提供します。