評価データセット参照

このページでは、評価データセットスキーマについて説明し、最も頻繁に使用されるメソッドとクラスのいくつかの SDK リファレンスへのリンクが含まれています。

評価データセットの使用方法に関する一般的な情報と例については、「開発中に GenAI を評価する」を参照してください。

評価データセットスキーマ

評価データセットでは、このセクションで説明されているスキーマを使用する必要があります。

コアフィールド

次のフィールドは、評価データセットの抽象化でも、データを直接渡す場合でも使用されます。

列	データ型	説明	必須
`inputs`	`dict[Any, Any]`	アプリの入力 (ユーザーの質問、コンテキストなど) は、JSON 形式で選択可能な `dict`として保存されます。	Yes
`expectations`	`dict[Str, Any]`	グラウンドトゥルースラベルは、JSON シリアル化可能な `dict`.	オプション

`expectations` 予約済みキー

expectations 組み込み LLM ジャッジによって使用される予約済みキーがいくつかあります: guidelines 、 expected_facts 、およびexpected_response 。

フィールド	使用者	説明
`expected_facts`	`Correctness` ジャッジ	表示すべき事実のリスト
`expected_response`	`Correctness` ジャッジ	正確または類似の期待出力
`guidelines`	`Guidelines` ジャッジ	従うべき自然言語のルール
`expected_retrieved_context`	`document_recall` スコアラー	取得する必要があるドキュメント

追加フィールド

次のフィールドは、評価データセットの抽象化レイヤーによってリネージとバージョン履歴を追跡するために使用されます。

列	データ型	説明	必須
`dataset_record_id`	string	レコードの一意の識別子。	指定しない場合は自動的に設定されます。
`create_time`	timestamp	レコードが作成された時刻。	挿入時や更新時に自動的に設定されます。
`created_by`	string	レコードを作成したユーザー。	挿入時や更新時に自動的に設定されます。
`last_update_time`	timestamp	レコードが最後に更新された時刻。	挿入時や更新時に自動的に設定されます。
`last_updated_by`	string	レコードを最後に更新したユーザー。	挿入時や更新時に自動的に設定されます。
`source`	struct	データセットレコードのソース。ソースフィールドを参照してください。	オプション
`tags`	dict[str, Any]	データセットレコードのキーと値のタグ。	オプション

ソースフィールド

sourceフィールドは、データセットレコードの取得元を追跡します。各レコードには 1 つのソースタイプのみ を含めることができます。

ヒューマンソース : 人が手動で作成したレコード

Python
{
    "source": {
        "human": {
            "user_name": "jane.doe@company.com"  # user who created the record
        }
    }
}

文書ソース : 文書から合成されたレコード

Python
{
    "source": {
        "document": {
            "doc_uri": "s3://bucket/docs/product-manual.pdf",  # URI or path to the source document
            "content": "The first 500 chars of the document..."  # Optional, excerpt or full content from the document
        }
    }
}

トレースソース : 本番運用トレースから作成されたレコード

Python
{
    "source": {
        "trace": {
            "trace_id": "tr-abc123def456". # unique identifier of the source trace
        }
    }
}

MLflow 評価データセット UI

評価データセット UI

MLflow 評価データセット SDK リファレンス

評価データセット SDK は、GenAI アプリ評価用のデータセットを作成、管理、使用するためのプログラムによるアクセスを提供します。詳細については、API リファレンスmlflow.genai.datasetsを参照してください。最も頻繁に使用されるメソッドとクラスは次のとおりです。

mlflow.genai.datasets.create_dataset
mlflow.genai.datasets.get_dataset
mlflow.genai.datasets.delete_dataset
EvaluationDataset 。このクラスは、評価データセットを操作および変更するためのメソッドを提供します。

評価データセットスキーマ​

コアフィールド​

expectations 予約済みキー​

追加フィールド​

ソースフィールド​

MLflow 評価データセット UI​

MLflow 評価データセット SDK リファレンス​