エージェントの観測性と評価のための Genie Code
Databricks Assistant は、MLflow 内で GenAI アプリケーションを理解、デバッグ、改善するための自然言語インターフェースを提供します。トレース、プロンプト、データセットから評価実行、スコアラー、ラベル付けセッションに至るまで、エクスペリメント内のすべてに対する読み取りアクセス権があるため、クエリを作成したり複数の UI ページを移動したりする代わりに、可観測性と評価データを会話形式で探索できます。
まず、エクスペリメントの表示中にワークスペースの右上にあるDatabricks Assistantアイコンをクリックします。

機能
Databricks Assistant は、次のような幅広い可観測性と評価のタスクに役立ちます。
- トレースの分析とデバッグ : 失敗したトレースを調査し、エラーを見つけ、スパン ツリーを調べ、根本原因を特定し、レイテンシを分析し、エージェントの実行フローのボトルネックを特定します。あらゆるトレースを詳細に調査し、各ステップの入力、出力、メタデータ、トークンの使用状況など、その全範囲の階層を検査します。
- メトリクスとパフォーマンス : コンピュート レイテンシー パーセンタイル (P50/P95/P99)、経時的なエラー率とスループットの追跡、使用パターンとコストの分析、さまざまな期間またはフィルターにわたるパフォーマンスの比較。
- 品質と評価 : 人間によるフィードバック、LLM 審査員、プログラムによるチェックからの評価スコアを確認します。評価データセットを検査し、登録済みのスコアラーとその構成を確認し、適切なスコアラーを使用して
mlflow.genai.evaluate()設定するためのサポートを受けます。 - ラベル付けとレビュー : ラベル付けセッションとトレースをレビューする担当者を表示し、ラベル付けスキーマを検査して、評価、コメント、期待などのフィードバック基準を理解します。
- プロンプト レジストリ : Unity Catalog内のプロンプトを参照し、テンプレート、バージョン、エイリアスを表示します。
- インストルメンテーション ガイダンス : Databricks ノートブックに直接貼り付けることができる実行可能なコード スニペットを使用して、
autolog()、@mlflow.trace、または手動スパンでコードにトレースを追加するためのヘルプを取得します。
例題
Databricks Assistant に尋ねることができる質問は次のとおりです。
- 「過去3時間のこの実験のトレースで、エージェントのツール呼び出しに関する問題を発見するのを手伝ってください」
- 「エージェントとの会話でユーザーが不満を抱いているケースを特定する」
- 「ユーザー フィードバック スコアが最も低いセッションはどれですか。また、それらの会話で何が問題だったのでしょうか。」
- 「この 1 週間のトレースで最も一般的な失敗パターンは何ですか。また、それをキャッチするにはどのようなスコアラーを追加する必要がありますか。」
- 「すべてのトレースにわたって、どのスパンが最も多くのトークンを消費しますか?」
- 「リトリーバーが結果を返さなかったが、エージェントが回答しようとした痕跡を見つける」
- 「適切なスコアラーを使って RAG エージェントの評価を設定できるように支援してください」
次のステップ
- MLflow Tracing - GenAI の可観測性- エンドツーエンドの可観測性を実現するMLflow Tracingについて学びます。
- AIエージェントの評価と監視— GenAI エージェントの評価とモニタリングを設定します。
- 開始: GenAI 向け MLflow 3 — GenAI 向け MLflow 3 を開始します。