トレースを使用したエージェントのデプロイ

MLflow Tracing は、MLflow UI で表示したり、テーブルとして分析したりできる実行の詳細をキャプチャすることで、本番運用生成 AI エージェントとアプリに包括的な可観測性を提供します。

Databricks はすべてのワークスペースで、フルマネージドで本番対応のMLflow 追跡サービスを提供します。追跡 URI を databricksに設定すると、トレースは Databricks によって安全に格納および提供され、デプロイまたは運用する個別のトレースデータベースやサーバーはありません。

MLflow 本番運用トレースの概要

本番運用トレースの仕組み:

アプリは、API 呼び出しごとにトレースを生成 します。アプリは、モデルサービング (このガイド) で実行される場合もあれば、外部アプリケーションである場合もあります。
トレース は、リアルタイムで Databricks MLflow 追跡サーバーのエクスペリメントに記録され、オプションで Delta テーブルに記録されます。
1. 開発には、エクスペリメント MLflow に記録されたトレースを使用します。
2. 本番運用の場合は、エクスペリメントロギングやDeltaテーブルへのロギングMLflowを使用します。
MLflow UIの本番運用モニタリング、またはカスタム評価を使用して、 トレースを分析および監視 します。

Agent Framework を使用したデプロイ (推奨)

Mosaic AI Agent Framework を介してMLflow Tracingで計測可能にされた生成 AI アプリケーションまたはエージェントをデプロイすると、追加の設定なしで自動的にMLflow Tracing が機能します。これは推奨されるデプロイ方法です。トレースは、エージェントのエクスペリメント MLflow に自動的に保存されます。オプションで、本番運用モニタリングを使用してトレースをDeltaテーブルにコピーすることもできます。

本番運用トレースは、Databricksの内部または外部にデプロイされた第 AI 世代アプリで機能します。このセクションでは、 Databricks モデルサービングを使用してデプロイされたアプリをトレースします。外部にデプロイされたアプリについては、「 Databricks の外部にデプロイされたエージェントのトレース」を参照してください。

デプロイのステップ

まず、トレースの保存場所を設定します。

本番運用モニタリングを使用してトレースをDeltaテーブルに保存する場合は、ワークスペースで有効になっていることを確認してください。
アプリの本番運用トレースを格納するためのMLflowエクスペリメントを作成します。

次に、 Python ノートブックで、 MLflow Tracingを使用してエージェントをインストルメント化し、エージェントフレームワークを使用してエージェントをデプロイします。

Python 環境に mlflow[databricks] をインストールします。最新バージョンを使用します。
mlflow.set_experiment(...)を使用してMLflowエクスペリメントに接続します。
エージェントフレームワークのオーサリングインターフェースを使用してエージェントのコードをラップします。エージェントコードで、自動または手動のインストルメンテーションを使用してMLflow Tracingを有効にします。
エージェントを MLflow モデルとしてログに記録し、Unity Catalogに登録します。
mlflowがモデルの Python 依存関係にあり、ノートブック環境で使用されているのと同じパッケージバージョンであることを確認します。
agents.deploy(...) を使用して、Unity Catalog モデル (エージェント) をモデルサービングエンドポイントにデプロイします。

警告

Databricks Git フォルダーに保存されているノートブックからエージェントを展開する場合、MLflow 3 リアルタイムトレースはデフォルトでは機能しません。

嘔吐トレースを有効にするには、 agents.deploy()実行する前に、 mlflow.set_experiment()を使用してエクスペリメントをGitに関連付けられていないエクスペリメントに設定します。

エージェントからのトレースが、リアルタイムでMLflowエクスペリメントに表示されるようになります。

ノートブックの例

次のノートブックでは、上記の手順を使用して、Agent Framework を使用して単純な生成 AI アプリをデプロイし、 MLflow エクスペリメントにトレースをログに記録する例を示します。

Agent Framework と MLflow Tracing ノートブック

Open notebook in new tab

カスタム CPU サービングを使用してデプロイする (代替)

Agent Framework を使用してエージェントをデプロイできない場合、このセクションでは、カスタム CPU モデルサービングを使用して Databricks にエージェントをデプロイする方法について説明します。それ以外の場合は、次のセクションに進んでください。

まず、トレースの保存場所を設定します。

本番運用モニタリングを使用してトレースをDeltaテーブルに保存する場合は、ワークスペースで有効になっていることを確認してください。
アプリの本番運用トレースを格納するためのMLflowエクスペリメントを作成します。

次に、 Python ノートブックで、 MLflow Tracingを使用してエージェントを計測可能にし、モデルサービング UI または API を使用してエージェントをデプロイします。

エージェントを MLflow モデルとしてログに記録します。エージェントコードで、自動または手動のインストルメンテーションを使用してMLflow Tracingを有効にします。エージェントのコードで、自動または手動の計測機能を使用してトレースが有効になっていることを確認します
モデルを CPU サービスにデプロイします。
MLflowエクスペリメントへのCAN_EDITアクセスを持つサービスプリンシパルまたはパーソナルアクセストークン(PAT)を提供します。
CPU サービングエンドポイントページで、[エンドポイントの編集] に移動します。トレースするデプロイされたモデルごとに、次の環境変数を追加します。
ENABLE_MLFLOW_TRACING=true
MLFLOW_EXPERIMENT_ID=<ID of the experiment you created>
サービスプリンシパルをプロビジョニングする場合は、 DATABRICKS_CLIENT_ID と DATABRICKS_CLIENT_SECRETを設定します。 PAT をプロビジョニングした場合は、 DATABRICKS_HOST を設定し、 DATABRICKS_TOKENを設定します。

本番運用トレースを見る

エージェントがデプロイされると、開発のトレースと同様に、 MLflow エクスペリメント UI でそのトレースを表示できます。これらの本番運用トレースは、次のことへの貴重な知見を提供します。

実際のユーザーのクエリとエージェントの応答 - ユーザーが何を尋ねているか、エージェントがどのように応答するかを正確に確認します
ユーザーフィードバックによる品質の知見 - 本番運用トレースに添付された親指を上げたり下げたりする評価やコメントなどのフィードバックを表示
エラー率と失敗パターン - エージェントがいつ、なぜ失敗するのかを特定する
行動パターン - ユーザーがエージェントとどのようにやり取りするかを理解し、改善の機会を特定します
レーテンシーとパフォーマンスメトリクス - 本番運用におけるレスポンスタイムとシステムパフォーマンスの監視
リソースの使用状況とコスト - トークンの消費と関連コストを追跡する

本番運用トレースのUI

Delta テーブルへのログトレース

エージェントがデプロイされたら、オプションで、MLflowエクスペリメントに加えて、トレースをDeltaテーブルに記録できます。このログは、次の 2 つの方法でサポートされます。

本番運用モニタリングテーブル ( 推奨 ): MLflow エクスペリメントの モニタリング タブに移動し、Unity Catalogスキーマを選択することで有効にします。トレースを Delta テーブルに同期するジョブは、~15分ごとに実行します。これを機能させるために、監視メトリクスを有効にする必要はありません。トレースにはサイズ制限はありません。
AI ゲートウェイ対応推論テーブル: モデルサービングエンドポイントページで AI Gateway 設定を編集して有効にします。トレース・サイズの制限と、トレースをテーブルに同期する際の遅延に注意してください。

トレースにメタデータを追加する

基本的なトレースが機能したら、メタデータまたはコンテキストを追加して、デバッグそして知見。 MLflow には、次のような重要なコンテキスト情報をキャプチャするための標準化されたタグと属性が用意されています。

要求の追跡 - エンドツーエンドのデバッグのためにトレースを特定の API 呼び出しにリンクします
ユーザーセッション - ユーザージャーニーを理解するために、関連するインタラクションをグループ化します
環境データ - 各トレースを生成したデプロイ、バージョン、またはリージョンを追跡します
ユーザーフィードバック - 品質評価を収集し、特定のインタラクションにリンクします

メタデータとユーザーフィードバックをトレースに追加するで開始します。

トークンの使用状況とコストを追跡する

開発と本番運用の両方で、MLflow TracingはLLM呼び出しのトークン使用量を追跡でき、コストを計算できます。トレースでは、 LLM プロバイダ APIから返されたトークン数を使用します。

MLflow Tracing は、OpenAI クライアントを介して呼び出される Databricks 基盤モデル API、OpenAI、 LangChain、LangGraph などの他の多くのLLMプロバイダーのトークン使用状況追跡をネイティブにサポートしています。その後、次の例のように、トークンの使用状況をプログラムで照会できます。

Python
# Get aggregated token usage (if available)
token_usage = trace.info.token_usage
if token_usage:
    print(f"Input tokens: {token_usage.get('input_tokens')}")
    print(f"Output tokens: {token_usage.get('output_tokens')}")
    print(f"Total tokens: {token_usage.get('total_tokens')}")

詳細については、「トークンの使用情報」を参照してください。

MLflow Tracing では、特定のエージェントまたはアプリケーションを計測可能にできます。 AIプラットフォーム全体でのモニタリングの使用のために、 AI Gateway は共有配信エンドポイントのガバナンスを提供します。プラットフォームレベルのトークン使用量をシステムテーブルにログに記録するには、AI Gateway 使用状況の追跡を参照してください。

これらのトークン数を使用して、 LLM プロバイダーの価格スケジュールに基づいてコストをコンピュートできます。多くのプロバイダーは、入力トークンと出力トークンに対して異なるレートを請求することに注意してください。

制限

MLflowエクスペリメントおよび本番運用モニタリング・テーブルへのトレースのログ記録には、トレースの数とピーク・ロードに制限があります。エクスペリメントごとに 100K を超えるトレースを保存する必要がある場合、またはピーク負荷が 60 クエリ/秒 (QPS) >の場合は、このフォームを使用して増加をリクエストします。

次のステップ

優れたデバッグと洞察のために、ユーザーまたはセッション ID、カスタムタグ、ユーザーフィードバックなどのメタデータをトレースに追加します

機能リファレンス

このガイドの概念と機能の詳細については、以下を参照してください。

デプロイメントの詳細のトレース - デプロイメント・オプションのトレースの詳細
トレースデータモデル - トレース、スパン、および属性の詳細
ログ評価 - フィードバックの保存方法と使用方法を理解する

Agent Framework を使用したデプロイ (推奨)​

デプロイのステップ​

ノートブックの例​

Agent Framework と MLflow Tracing ノートブック

カスタム CPU サービングを使用してデプロイする (代替)​

本番運用トレースを見る​

Delta テーブルへのログ トレース​

トレースにメタデータを追加する​

トークンの使用状況とコストを追跡する​

制限​

次のステップ​

機能リファレンス​