メインコンテンツまでスキップ

Unity AIゲートウェイのエンドポイントを構成します。

備考

ベータ版

この機能はベータ版です。アカウント管理者は、アカウント コンソールの [プレビュー] ページからこの機能へのアクセスを制御できます。 Databricksのプレビューを管理するを参照してください。

このページでは、Unity AI Gateway エンドポイントを構成する方法について説明します。

要件

Unity AI Gatewayエンドポイントを作成

Unity AI Gateway エンドポイントを作成するには:

  1. サイドバーで、**AI Gateway**をクリックします。
  2. Unity AI Gateway Endpoint を作成 をクリックします。
  3. エンドポイント名とプライマリモデルを構成します。
  4. 作成 をクリックします。

エンドポイントの機能を構成します。

Unity AI Gateway エンドポイントを更新して、機能を有効または無効にできます。Unity AI Gateway の構成への更新は、有効になるまでに最大1分かかります。

既存のエンドポイントで Unity AI Gateway の機能を更新するには:

  1. AI Gateway ページからエンドポイントをクリックしてください。
  2. 「Gateway Endpoint Details」サイドバーで、更新する機能の横にある編集アイコンをクリックします。
  3. 変更を行い、「 保存 」をクリックします。

AIゲートウェイ UI

次の表は、利用可能なUnity AIゲートウェイの機能と、それらの構成方法をまとめたものです。

機能

設定方法

詳細

使用状況の追跡

デフォルトで有効です。

  • system.ai_gateway.usageシステムテーブルに利用状況データをログに記録します。
  • アカウント管理者は、システムテーブルを使用する前に、ai_gatewayシステムテーブルスキーマを有効にする必要があります。システムテーブルへのアクセス権の付与を参照してください。
  • system.ai_gateway.usageテーブルを表示またはクエリできるのは、アカウント adminのみです。
  • トークン数がモデルによって返されない場合、入力および出力トークン数は(text_length+1)/4と推定されます。

推論テーブル

リクエストとレスポンスをログに記録するには、 推論テーブルを有効にする を選択します。

  • Unity Catalog Delta テーブルにログを記録します。
  • 指定されたカタログスキーマには、CREATE TABLE権限が必要です。
  • 10 MiBを超えるペイロードはログに記録されません。
  • 応答ペイロードは、返されたすべてのチャンクの応答を集約します。

レート制限

レート制限 を選択して、1分あたりのクエリー数(QPM)または1分あたりのトークン数(TPM)を構成します。

  • エンドポイント、ユーザー、またはグループレベルで制限を構成します。
    • グローバル制限を設定するには、 Endpoint フィールドを使用します。エンドポイントのレート制限はグローバル最大値です。超過した場合、すべてのリクエストはブロックされます。
    • ユーザー (デフォルト) 」フィールドを使用して、ユーザーごとの制限を設定します。
      • 個々のユーザー、サービスプリンシパル、またはグループに対してカスタムレート制限を定義します。

ガードレール

コンテンツポリシーを構成するには、**ガードレール**を選択します。

  • 個人を特定できる情報 (PII) 検出、コンテンツモデレーション、およびその他の事前構築済みのLLMベースのポリシーをリクエストと応答に適用します。
  • ブロックされたリクエストは HTTP 400 を返し、使用状況追跡テーブルと推論テーブルに記録されます。
  • ドライランを有効にして、本番運用トラフィックに影響を与えることなくガードレール構成をテストします。ドライ実行モードでは、ガードレールは評価されますが、要求または応答がブロックまたは変更されることはありません。

フォールバック

**フォールバックモデルの追加** を選択して、フォールバックモデルを構成します。

  • プライマリモデルが429または5XXエラーを返した場合、リクエストは他のモデルにフォールバックします。
  • 各フォールバックモデルは、リクエストが成功するまで順序どおりに1回試行されます。
  • 最初の成功した、または最後の失敗したリクエスト試行と応答は、使用状況トラッキングテーブルと推論テーブルの両方にログに記録されます。
  • すべてのフォールバック試行は、使用状況追跡テーブルrouting_information フィールドに記録されます。

トラフィック分割

「**トラフィック分割の追加**」を選択して、複数のモデルバックエンドにリクエストを分散させます。

  • 各宛先モデルにトラフィックの割合を割り当てます。割合の合計は100%である必要があります。
  • 新しいモデルの段階的なロールアウト、A/B テストの実行、またはプロバイダー全体への負荷分散には、トラフィック分割を使用します。
  • すべてのルーティング決定は、使用状況追跡テーブルrouting_informationフィールドに記録されます。

カスタム APIs

外部APIに接続するエンドポイントを作成する際には、**Custom API** を選択します。

  • 同じアクセス制御、レート制限、およびログ記録を任意の外部APIエンドポイントに適用します。
  • カスタムAPIトラフィックは、使用状況追跡テーブルと推論テーブルにログ記録されますが、いくつかの制限があります。使用状況追跡ではトークンカウントが利用できない場合があり、ストリーミングリクエストのレスポンスチャンク集約は推論テーブルで利用できない場合があります。

次の図は、3つのモデルがUnity AI Gatewayエンドポイントの宛先として登録されているフォールバックの例を示しています:

  1. リクエストは最初にModel 1にルーティングされます。
  2. リクエストが200レスポンスを返した場合、リクエストはモデル1で成功し、リクエストとそのレスポンスは使用状況追跡テーブルと推論テーブルに記録されます。
  3. リクエストがモデル1で429または5XXエラーを返した場合、リクエストはエンドポイントの次のモデルであるモデル2にフォールバックします。
  4. リクエストがモデル2で429または5XXエラーを返した場合、リクエストはエンドポイント上の次のモデルであるモデル3にフォールバックします。
  5. リクエストがモデル3で429または5XXエラーを返す場合、すべてのフォールバックモデルが試行されているため、リクエストは失敗します。失敗したリクエストとレスポンスエラーは、使用状況追跡および推論テーブルに記録されます。

フォールバックの例

次のステップ