エージェントの観測性と評価のための Genie Code

Genie Code は、MLflow 内で GenAI アプリケーションを理解、デバッグ、改善するための自然言語インターフェースを提供します。トレース、プロンプト、データセットから評価実行、スコアラー、ラベル付けセッションに至るまで、エクスペリメント内のすべてに対する読み取りアクセス権があるため、クエリを作成したり複数の UI ページを移動したりする代わりに、可観測性と評価データを会話形式で探索できます。

まず、エクスペリメントの表示中にワークスペースの右上にあるGenie Code アイコンをクリックします。

機能

Genie Code は、次のような幅広い観測および評価タスクに役立ちます。

トレースの分析とデバッグ : 失敗したトレースを調査し、エラーを見つけ、スパンツリーを調べ、根本原因を特定し、レイテンシを分析し、エージェントの実行フローのボトルネックを特定します。あらゆるトレースを詳細に調査し、各ステップの入力、出力、メタデータ、トークンの使用状況など、その全範囲の階層を検査します。
メトリクスとパフォーマンス : コンピュートレイテンシーパーセンタイル (P50/P95/P99)、経時的なエラー率とスループットの追跡、使用パターンとコストの分析、さまざまな期間またはフィルターにわたるパフォーマンスの比較。
品質と評価 : 人間によるフィードバック、LLM 審査員、プログラムによるチェックからの評価スコアを確認します。評価データセットを検査し、登録済みのスコアラーとその構成を確認し、適切なスコアラーを使用してmlflow.genai.evaluate()設定するためのサポートを受けます。
ラベル付けとレビュー : ラベル付けセッションとトレースをレビューする担当者を表示し、ラベル付けスキーマを検査して、評価、コメント、期待などのフィードバック基準を理解します。
プロンプトレジストリ : Unity Catalog内のプロンプトを参照し、テンプレート、バージョン、エイリアスを表示します。
インストルメンテーションガイダンス : Databricks ノートブックに直接貼り付けることができる実行可能なコードスニペットを使用して、 autolog() 、 @mlflow.trace 、または手動スパンでコードにトレースを追加するためのヘルプを取得します。

例題

Genie Code に尋ねることができる質問は次のとおりです。

「過去3時間のこの実験のトレースで、エージェントのツール呼び出しに関する問題を発見するのを手伝ってください」
「エージェントとの会話でユーザーが不満を抱いているケースを特定する」
「ユーザーフィードバックスコアが最も低いセッションはどれですか。また、それらの会話で何が問題だったのでしょうか。」
「この 1 週間のトレースで最も一般的な失敗パターンは何ですか。また、それをキャッチするにはどのようなスコアラーを追加する必要がありますか。」
「すべてのトレースにわたって、どのスパンが最も多くのトークンを消費しますか？」
「リトリーバーが結果を返さなかったが、エージェントが回答しようとした痕跡を見つける」
「適切なスコアラーを使って RAG エージェントの評価を設定できるように支援してください」

要件

エージェントの可観測性と評価に Genie Code を使用するには、ワークスペースに以下のものが必要です。

パートナーが提供する AI 機能がアカウントとワークスペースの両方で有効になっていること。パートナーが提供する AI 機能をご覧ください。
ワークスペースは、サポートされているリージョン内に配置する必要があります。Genie Codeは、Geosを使用してデータ所在地の管理を行う指定サービスです。Genie Code機能のGeo別利用可能状況をご覧ください。

その他のリソース

MLflow Tracing - GenAIの可観測性 - エンドツーエンドの可観測性について、MLflow Tracingについて学びます。
AIエージェントの評価とモニタリング - 生成AIエージェントの評価とモニタリングを設定します。
はじめに: 生成AI向けMLflow 3 - 生成AI向けMLflow 3を開始します。

機能​

例題​

要件​

その他のリソース​

機能

例題

要件

その他のリソース