本番運用トラフィックの外部モデルの品質を監視する方法

備考

プレビュー

注記

この記事では、機能が制限された古い製品について説明します。Databricks 、本番運用では代わりに Monitor GenAIを使用することをお勧めします。

この記事では、推論テーブルが有効になっている基盤モデルに送信された本番運用トラフィックで、外部モデルの品質をモニタリングする方法 AI 説明しています。

オンラインモニタリングは、モデルが実際のリクエストに対して意図したとおりに機能していることを確認するための重要な側面です。以下に示すノートブックを使用すると、外部モデルエンドポイントを介して提供されるリクエストに対して Agent Evaluation を継続的に実行できます。ノートブックは、本番運用リクエストに対するモデルの出力の品質メトリクスを表示するダッシュボードを生成します。ダッシュボードでは、時間、合格/不合格のステータス、入力リクエストのトピックなど、さまざまなディメンションでメトリクスをスライスできます (たとえば、特定のトピックが低品質の出力と相関しているかどうかを理解するため)。さらに、低品質の応答を含む個々の要求を深く掘り下げて、さらにデバッグすることもできます。ダッシュボードなどのすべてのアーティファクトは、完全にカスタマイズ可能です。

オンラインモニタリングダッシュボード

必要条件

ワークスペースでは、パートナーが提供する AI 機能を有効にする必要があります。
推論テーブルは、エンドポイントの AI Gateway を通じて有効にする必要があります。

Agent Evaluationによる本番運用トラフィックの継続的な処理

次のノートブックの例は、AI Gateway 経由で推論テーブルが有効になっている基礎モデルに送信されたリクエストログに対して Agent Evaluation を実行する方法を示しています。これには、OpenAI やプロビジョニングされたスループットモデルなどの外部モデルが含まれます。ノートブックを実行するには、次の手順を実行します。

…

ノートブックをワークスペースにインポートします (手順)。下の「インポート用のリンクをコピー」ボタンをクリックして、インポート用のURLを取得できます。
インポートしたノートブックの上部に必要なパラメーターを入力します。
- AI Gateway 経由で推論テーブルが有効になっているサービングエンドポイントの名前。
- 0.0 から 1.0 のサンプルレートからサンプル要求まで。トラフィック量の多いエンドポイントには、より低いレートを使用します。
- (オプション)生成されたアーティファクト (ダッシュボードなど) を格納するワークスペースフォルダー。デフォルトはホームフォルダーです。
- (オプション)入力要求を分類するトピックの一覧。デフォルトは、1 つのキャッチオールトピックで構成されるリストです。
インポートしたノートブックで [ すべて実行 ] をクリックします。これにより、30日以内に本番運用ログの初期処理が行われ、品質メトリクスをまとめたダッシュボードが初期化されます。
[ スケジュール ] をクリックして、ノートブックを定期的に実行するジョブを作成します。ジョブは、本番運用ログを段階的に処理し、ダッシュボードを最新の状態に保ちます。

ノートブックには、サーバレスコンピュート、または 15.2 以降を実行しているクラスター Databricks Runtime が必要です。リクエスト数の多いエンドポイントで本番運用トラフィックを継続的にモニタリングする場合は、より頻繁なスケジュールを設定することをお勧めします。たとえば、時間単位のスケジュールは、1時間あたり10,000件を超えるリクエストと10%のサンプルレートを持つエンドポイントに適しています。

本番運用トラフィックに対するAgent Evaluation実行ノートブック

ノートブックを新しいタブで開く

評価メトリクスに対するアラートの作成

ノートブックを定期的に実行するようにスケジュールした後、品質メトリクスが予想よりも低下したときに通知を受け取るアラートを追加できます。これらのアラートは、他の Databricks SQL アラートと同じ方法で作成および使用されます。まず、サンプルノートブックによって生成された評価要求ログテーブルに対して Databricks SQL クエリを作成します。次のコードは、評価要求テーブルに対するクエリの例を示し、過去 1 時間からの要求をフィルター処理しています。

SQL
SELECT
  `request_date`,
  AVG(pass_indicator) as avg_pass_rate
FROM (
  SELECT
    *,
    CASE
      WHEN `response/overall_assessment/rating` = 'yes' THEN 1
      WHEN `response/overall_assessment/rating` = 'no' THEN 0
      ELSE NULL
    END AS pass_indicator
  -- The eval requests log table is generated by the example notebook
  FROM {eval_requests_log_table_name}
  WHERE `request_date` >= CURRENT_TIMESTAMP() - INTERVAL 1 DAY
)
GROUP BY ALL

次に、 Databricks SQL アラートを作成して、目的の頻度でクエリを評価し、アラートがトリガーされた場合は通知を送信します。次の図は、全体の合格率が 80% を下回ったときにアラートを送信する設定例を示しています。

オンラインモニタリングアラートの設定

デフォルトでは、Eメールの通知が送信されます。また、Webhook を設定したり、Slack や PagerDuty などの他のアプリケーションに通知を送信したりすることもできます。

必要条件​

Agent Evaluationによる本番運用トラフィックの継続的な処理​

本番運用トラフィックに対するAgent Evaluation実行 ノートブック

評価メトリクスに対するアラートの作成​

必要条件

Agent Evaluationによる本番運用トラフィックの継続的な処理

本番運用トラフィックに対するAgent Evaluation実行ノートブック

評価メトリクスに対するアラートの作成