メインコンテンツまでスキップ

評価データセット参照

このページでは、評価データセット スキーマについて説明し、最も頻繁に使用されるメソッドとクラスのいくつかの SDK リファレンスへのリンクが含まれています。

評価データセットの使用方法に関する一般的な情報と例については、 「開発中に GenAI を評価する」を参照してください。

評価データセットスキーマ

評価データセットでは、このセクションで説明されているスキーマを使用する必要があります。

コアフィールド

次のフィールドは、評価データセットの抽象化でも、データを直接渡す場合でも使用されます。

データ型

説明

必須

inputs

dict[Any, Any]

アプリの入力 (ユーザーの質問、コンテキストなど) は、JSON 形式で選択可能な dictとして保存されます。

Yes

expectations

dict[Str, Any]

グラウンド トゥルース ラベルは、JSON シリアル化可能な dict.

オプション

expectations 予約済みキー

expectations 組み込み LLM ジャッジによって使用される予約済みキーがいくつかあります: guidelinesexpected_facts 、およびexpected_response

フィールド

使用者

説明

expected_facts

Correctness ジャッジ

表示すべき事実のリスト

expected_response

Correctness ジャッジ

正確または類似の期待出力

guidelines

Guidelines ジャッジ

従うべき自然言語のルール

expected_retrieved_context

document_recall スコアラー

取得する必要があるドキュメント

追加フィールド

次のフィールドは、評価 データセットの抽象化レイヤーによってリネージとバージョン履歴を追跡するために使用されます。

データ型

説明

必須

dataset_record_id

string

レコードの一意の識別子。

指定しない場合は自動的に設定されます。

create_time

timestamp

レコードが作成された時刻。

挿入時や更新時に自動的に設定されます。

created_by

string

レコードを作成したユーザー。

挿入時や更新時に自動的に設定されます。

last_update_time

timestamp

レコードが最後に更新された時刻。

挿入時や更新時に自動的に設定されます。

last_updated_by

string

レコードを最後に更新したユーザー。

挿入時や更新時に自動的に設定されます。

source

struct

データセット レコードのソース。ソースフィールドを参照してください。

オプション

tags

dict[str, Any]

データセット レコードのキーと値のタグ。

オプション

ソースフィールド

sourceフィールドは、データセット レコードの取得元を追跡します。各レコードには 1 つのソース タイプのみ を含めることができます。

ヒューマンソース : 人が手動で作成したレコード

Python
{
"source": {
"human": {
"user_name": "jane.doe@company.com" # user who created the record
}
}
}

文書ソース : 文書から合成されたレコード

Python
{
"source": {
"document": {
"doc_uri": "s3://bucket/docs/product-manual.pdf", # URI or path to the source document
"content": "The first 500 chars of the document..." # Optional, excerpt or full content from the document
}
}
}

トレースソース : 本番運用トレースから作成されたレコード

Python
{
"source": {
"trace": {
"trace_id": "tr-abc123def456". # unique identifier of the source trace
}
}
}

MLflow評価データセットUI

MLflowエクスペリメント ページの [データセット] タブは、評価データセットとその記録を管理するための視覚的なインターフェイスを提供します。 このページでは分割ペイン レイアウトが使用されています。左ペインにはエクスペリメントに関連付けられたすべての評価データセットがリストされ、右ペインには選択したデータセットのレコードが表示されます。 コードを一切記述することなく、UIから直接データセットやレコードの検索、並べ替え、作成、編集、削除を行うことができます。

評価データセットタブ

右側のペインから、レコード入力と期待値をインラインで編集したり、個々のレコードにタグを追加したり、本番運用トレースから作成されたレコードのソース トレースを表示したり、データセットに対して評価を実行するためのすぐに使用できるPythonコード スニペットを取得したりできます。

評価データセットのUI概要

  1. サイドバーで 「エクスペリメント」 をクリックし、エクスペリメントを開きます。

  2. データセット」 タブをクリックします。左側のペインには、この体験のすべての評価データセットが表示されます。 デフォルトでは、データセットは最終更新時刻順に並べ替えられます。検索バーを使用して、データセット名で絞り込むことができます。

  3. データセット名をクリックすると、右側のペインにそのデータセットのレコードが表示されます。すべての列を表示するには、左右にスクロールする必要がある場合があります。

  4. 右側のペインを拡大するには、ペインの区切り線にカーソルを合わせ、左向きの矢印をクリックします。矢印をもう一度クリックすると、デフォルト表示に戻ります。

    右側のペインを拡大するには、ペイン区切り線にカーソルを合わせます。

  5. 表示する列を選択するには、 「列」 ボタンをクリックします。チェックボックスを選択または選択解除してください。完了したら、ドロップダウンメニューの任意の場所をクリックしてください。

    表示する列を選択してください。

評価データセットを作成する

  1. [データセット] タブで、 [データセットの作成]を クリックします。

    データセット作成ボタン

  2. ダイアログで、 [スキーマを選択] をクリックして、 CREATE TABLE権限を持つUnity Catalogスキーマを選択します。

  3. データセットのテーブル名を入力してください。入力の下に、データセット名全体( catalog.schema.table_name )のプレビューが表示されます。

  4. 「データセットの作成」を クリックします。

データセットレコードを追加する

既存のトレースを評価データセットに追加するには、 「UI を使用してデータセットを作成する」を参照してください。

データセットレコードを編集する

ビデオには次のステップが表示されます。

  1. 左側のペインでデータセットを選択すると、そのデータセットに含まれるレコードが表示されます。
  2. テーブル内の 「入力」「期待値」の フィールドは、直接編集できます。これらのフィールドはJSON形式を受け付け、入力と同時に内容を検証します。
  3. 新しい行を追加するには、 「レコードの追加」 をクリックします。デフォルト値が設定された新しい行が、表の一番上に表示されます。
  4. 保留中の編集内容をすべて保存するには、右上の 「変更を保存」 をクリックしてください。

データセットのレコードを編集する方法。

レコードまたはデータセットを削除します

  • レコードを削除するには、チェックボックスを使用して 1 つ以上のレコードを選択し、 [削除 (N)] をクリックします。

レコードを削除します。

  • データセットを削除するには、 「詳細を表示」 をクリックして詳細ペインを開き、ペイン下部の 「データセットを削除」を クリックします。ケバブメニューからデータセットを削除することもできます。ケバブメニューのアイコン。データセットリスト内。

評価データセットの詳細を表示するペイン。

データセットの詳細を表示

データセットのメタデータを表示するには、右上の 「詳細を表示」 をクリックしてください。データセット名、ID、作成時刻、最終更新、ソース、 Unity Catalogでデータセットを表示するリンクを含むペインが開きます。

タグの追加と削除

タグ 列で、タグをクリックして編集するか、 「タグの追加」 をクリックして新しいタグを追加します。

UI上でタグを編集します。

ソーストレースを表示

「ソース」 列でトレースをクリックすると、完全なトレースと評価結果を表示する対話型ウィンドウが開きます。

UI上でソーストレースを表示します。

データセットを使用して評価を実行します

データセットを読み込み、デフォルトのスコアラーセットを使用してmlflow.genai.evaluate()を実行するPythonコードテンプレートを含むダイアログを開くには:

  1. 「評価を実行する」 をクリックしてください。

    評価実行ボタン。

  2. 次の画像に示されているコピーアイコンをクリックすると、抜粋したテキストがクリップボードにコピーされます。

    コードスニペットをコピーしてください。

MLflow 評価データセット SDK リファレンス

評価データセット SDK は、GenAI アプリ評価用のデータセットを作成、管理、使用するためのプログラムによるアクセスを提供します。詳細については、API リファレンスmlflow.genai.datasetsを参照してください。最も頻繁に使用されるメソッドとクラスは次のとおりです。