メインコンテンツまでスキップ
非公開のページ
このページは非公開です。 検索対象外となり、このページのリンクに直接アクセスできるユーザーのみに公開されます。

本番運用トラフィックの外部モデルの品質を監視する方法

備考

プレビュー

この機能は パブリック プレビュー段階です。

注記

この記事では、機能が制限された古い製品について説明します。Databricks は What is Lake Houseモニタリング for 生成AIを使用することをお勧めします。(レガシー) その代わりに。

この記事では、推論テーブルが有効になっている基盤モデルに送信された本番運用トラフィックで、外部モデルの品質をモニタリングする方法 AI 説明しています。

オンラインモニタリングは、モデルが実際のリクエストに対して意図したとおりに機能していることを確認するための重要な側面です。 以下に示すノートブックを使用すると、外部モデルエンドポイントを介して提供されるリクエストに対して Agent Evaluation を継続的に実行できます。ノートブックは、本番運用リクエストに対するモデルの出力の品質 メトリクス を表示するダッシュボードを生成します。 ダッシュボードでは、時間、合格/不合格のステータス、入力リクエストのトピックなど、さまざまなディメンションでメトリクスをスライスできます (たとえば、特定のトピックが低品質の出力と相関しているかどうかを理解するため)。さらに、低品質の応答を含む個々の要求を深く掘り下げて、さらにデバッグすることもできます。ダッシュボードなどのすべてのアーティファクトは、完全にカスタマイズ可能です。

オンライン モニタリング ダッシュボード

必要条件

  • パートナーが提供する AI 支援機能は、ワークスペースで有効にする必要があります。
  • 推論テーブル は、エンドポイントの AI Gateway を通じて有効にする必要があります。

Agent Evaluationによる本番運用トラフィックの継続的な処理

次のノートブックの例は、AI Gateway 経由で推論テーブルが有効になっている基礎モデルに送信されたリクエストログに対して Agent Evaluation を実行する方法を示しています。 これには、OpenAI や プロビジョニングされたスループット モデルなどの外部モデル が含まれます。ノートブックを実行するには、次の手順を実行します。

  • ノートブックをワークスペースにインポートします (手順)。 下の「インポート用のリンクをコピー」ボタンをクリックして、インポート用のURLを取得できます。

  • インポートしたノートブックの上部に必要なパラメーターを入力します。

    • AI Gateway 経由で推論テーブルが有効になっているサービングエンドポイントの名前。
    • 0.0 から 1.0 のサンプル レートからサンプル要求まで。 トラフィック量の多いエンドポイントには、より低いレートを使用します。
    • (オプション)生成されたアーティファクト (ダッシュボードなど) を格納するワークスペース フォルダー。 デフォルトはホームフォルダーです。
    • (オプション)入力要求を分類するトピックの一覧。 デフォルトは、1 つのキャッチオールトピックで構成されるリストです。
  • インポートしたノートブックで [ すべて実行 ] をクリックします。 これにより、30日以内に本番運用ログの初期処理が行われ、品質メトリクスをまとめたダッシュボードが初期化されます。

  • [ スケジュール ] をクリックして、ノートブックを定期的に実行するジョブを作成します。 ジョブは、本番運用ログを段階的に処理し、ダッシュボードを最新の状態に保ちます。

ノートブックには、サーバレス コンピュート、または 15.2 以降を実行しているクラスター Databricks Runtime が必要です。 リクエスト数の多いエンドポイントで本番運用トラフィックを継続的にモニタリングする場合は、より頻繁なスケジュールを設定することをお勧めします。 たとえば、時間単位のスケジュールは、1時間あたり10,000件を超えるリクエストと10%のサンプルレートを持つエンドポイントに適しています。

本番運用トラフィックに対するAgent Evaluation実行 ノートブック

Open notebook in new tab

評価メトリクスに対するアラートの作成

ノートブックを定期的に実行するようにスケジュールした後、品質メトリクスが予想よりも低下したときに通知を受け取るアラートを追加できます。 これらのアラートは、他の Databricks SQL アラートと同じ方法で作成および使用されます。 まず、サンプル ノートブックによって生成された評価要求ログ テーブルに対して Databricks SQL クエリ を作成します。 次のコードは、評価要求テーブルに対するクエリの例を示し、過去 1 時間からの要求をフィルター処理しています。

SQL
SELECT
`request_date`,
AVG(pass_indicator) as avg_pass_rate
FROM (
SELECT
*,
CASE
WHEN `response/overall_assessment/rating` = 'yes' THEN 1
WHEN `response/overall_assessment/rating` = 'no' THEN 0
ELSE NULL
END AS pass_indicator
-- The eval requests log table is generated by the example notebook
FROM {eval_requests_log_table_name}
WHERE `request_date` >= CURRENT_TIMESTAMP() - INTERVAL 1 DAY
)
GROUP BY ALL

次に、 Databricks SQL アラート を作成して、目的の頻度でクエリを評価し、アラートがトリガーされた場合は通知を送信します。 次の図は、全体の合格率が 80% を下回ったときにアラートを送信する設定例を示しています。

オンラインモニタリング アラートの設定

デフォルトでは、Eメールの通知が送信されます。 また、Webhook を設定したり、Slack や PagerDuty などの他のアプリケーションに通知を送信したりすることもできます。