開発におけるラベリング

生成AI アプリケーションを構築する開発者には、アプリケーションの出力の品質に関する観察結果を追跡する方法が必要です。MLflow Tracingを使用すると、開発中にフィードバックや期待値をトレースに直接追加できるため、品質の問題を記録したり、成功した例をマークしたり、後で参照するためのメモを追加したりする簡単な方法が得られます。

前提条件

アプリケーションがMLflow Tracingで計測可能になっている
アプリケーションを実行してトレースを生成している

UI を使用したトレースへのラベルの追加

MLflow を使用すると、MLflow UI を使用してトレースに注釈 (ラベル) を直接簡単に追加できます。

注記

Databricksノートブックを使用している場合は、ノートブックでインラインでレンダリングされるトレース UI からこれらの手順を実行することもできます。

人間のフィードバック

MLflow エクスペリメント UI の [トレース] タブに移動します
個々のトレースを開く
トレースUI内で、ラベルを付ける特定のスパンをクリックします
- ルートスパンを選択すると、トレース全体にフィードバックが添付されます
右端の [評価] タブを展開します
フォームに入力してフィードバックを追加してください
- 評価タイプ
  - フィードバック : 品質の主観的な評価 (評価、コメント)
  - 期待値 : 期待される出力または値 (生成されるはずだったもの)
- 評価名
  - フィードバックの内容を表す一意の名前
- データ型
  - Number
  - Boolean
  - String
- Value
  - あなたの評価
- 根拠
  - 値に関するオプションの注意事項
作成をクリックしてラベルを保存します
[トレース] タブに戻ると、ラベルが新しい列として表示されます

SDK を使用してトレースにラベルを追加する

MLflow の SDK を使用して、プログラムでトレースにラベルを追加できます。これは、アプリケーションロジックに基づく自動ラベリングや、トレースのバッチ処理に役立ちます。

完全な例については、ログ評価の概念ページを参照してください。

Python

import mlflow
@mlflow.trace
def my_app(input: str) -> str:
    return input + "_output"

my_app(input="hello")

trace_id = mlflow.get_last_active_trace_id()


# Log a thumbs up/down rating
mlflow.log_feedback(
    trace_id=trace_id,
    name="quality_rating",
    value=1,  # 1 for thumbs up, 0 for thumbs down
    rationale="The response was accurate and helpful",
    source=mlflow.entities.assessment.AssessmentSource(
        source_type=mlflow.entities.assessment.AssessmentSourceType.HUMAN,
        source_id="bob@example.com",
    ),
)

# Log expected response text
mlflow.log_expectation(
    trace_id=trace_id,
    name="expected_response",
    value="The capital of France is Paris.",
    source=mlflow.entities.assessment.AssessmentSource(
        source_type=mlflow.entities.assessment.AssessmentSourceType.HUMAN,
        source_id="bob@example.com",
    ),
)

次のステップ

これらの推奨アクションとチュートリアルで旅を続けてください。

ドメインの専門家からのフィードバックを収集する - 構造化されたラベル付けセッションを設定する
評価データセットの構築 - ラベル付けされたトレースを使用して、テストデータセットを作成します
エンドユーザーのフィードバックを収集する - デプロイされたアプリケーションからフィードバックをキャプチャする

リファレンスガイド

このガイドで説明されている概念と機能の詳細なドキュメントをご覧ください。

ログ評価 - 評価の種類と使用状況について詳しく説明します
トレーシングデータモデル - 評価がトレースにどのようにアタッチされるかを理解する
ラベル付けスキーマ - 構造化されたフィードバック収集について学習します

前提 条件​

UI を使用したトレースへのラベルの追加​

SDK を使用してトレースにラベルを追加する​

次のステップ​

リファレンスガイド​

前提条件

UI を使用したトレースへのラベルの追加

SDK を使用してトレースにラベルを追加する

次のステップ

リファレンスガイド