メインコンテンツまでスキップ

Unity AI Gatewayエンドポイントのトラフィック分割を設定する

備考

ベータ版

この機能はベータ版です。アカウント管理者は、アカウント コンソールの [プレビュー] ページからこの機能へのアクセスを制御できます。 Databricksのプレビューを管理するを参照してください。

このページでは、Unity AI Gatewayエンドポイントのトラフィック分割を設定する方法について説明します。トラフィック分割機能を使用して、単一のUnity AI Gatewayエンドポイントの背後にある複数のモデルバックエンドにリクエストを分散させることで、新しいモデルを段階的に展開したり、A/Bテストを実行したり、プロバイダー間で負荷を分散したりすることができます。

要件

UIでトラフィック分割を設定する

  1. Databricksワークスペースで、サイドバーの AI Gateway をクリックし、編集するエンドポイントを選択します。

  2. 「宛先」 セクションで、 「別のモデルを追加」 をクリックして、分割に含める各モデルバックエンドの宛先エントリを追加します。

  3. 各宛先について、そのモデルが受け取るトラフィックの割合を 「トラフィック率」 に設定してください。

    • パーセンテージの合計は100%でなければなりません。
  4. システムは、すべての割り当ての合計が100%になった時点で変更を自動的に保存します。

Unity AI Gatewayは、指定したトラフィックの割合に基づいて、各リクエストを構成済みの宛先にランダムにルーティングします。時間の経過とともに、各宛先へのトラフィックの観測値は、設定された割合に収束します。

フォールバックとの相互作用

トラフィック分割とフォールバックは併用できますが、リクエスト処理の異なる段階で適用されます。

  • トラフィック分割は、リクエストの最初の(主要な)宛先を決定します。
  • フォールバックとは、最初の試行が失敗した場合にシステムがどのようにリクエストを再試行するかを定義するものです。

トラフィック分割とフォールバックの両方を設定する場合:

  1. トラフィック分割機能は、受信した各リクエストに対して、重みに基づいて設定された宛先セットから1つの宛先を選択します。この選択が、そのリクエストの主要な宛先となります。
  2. システムはリクエストを主要な宛先に送信します。
  3. リクエストが失敗した場合(例えば、429エラーや5xxエラーが発生した場合)、システムは設定済みのフォールバック先に対してリクエストを再試行します。指定された順序で正確に試行します。
  4. システムは、いずれかの代替手段が成功するか、またはすべての代替手段を使い果たすまで、順次代替手段を試みます。
注記

フォールバック機能はトラフィック分割とは無関係です。システムがプライマリ宛先を選択した後は、再試行時にトラフィック分割を再適用することはありません。

トラフィックの分割とフォールバックは、AIゲートウェイエンドポイントで実行されます。

可観測性

トラフィックの分割とフォールバックに関するルーティング決定は、 system.ai_gateway.usageシステムテーブルのrouting_informationフィールドに記録されます。このテーブルを照会して、リクエストが設定した割合とフォールバック順序に従ってルーティングされていることを確認してください。

SQL
SELECT
destination_name AS destination,
COUNT(*) AS request_count,
ROUND(COUNT(*) * 100.0 / SUM(COUNT(*)) OVER (), 1) AS actual_pct
FROM system.ai_gateway.usage
WHERE
endpoint_name = 'your-endpoint-name'
AND event_time >= CURRENT_TIMESTAMP - INTERVAL 7 DAY
GROUP BY destination_name
ORDER BY actual_pct DESC;

制限事項

  • トラフィック分割は、最大5つの宛先まで設定できます。
  • フォールバック先ではトラフィック分割を設定できません。

次のステップ