メインコンテンツまでスキップ

AIゲートウェイエンドポイントを構成する

備考

ベータ版

この機能はベータ版です。アカウント管理者は、アカウント コンソールの [プレビュー] ページからこの機能へのアクセスを制御できます。 「Databricks プレビューの管理」を参照してください。

このページでは、AI Gateway (ベータ版)エンドポイントを構成する方法について説明します。

要件

AIゲートウェイエンドポイントを作成する

AI ゲートウェイ エンドポイントを作成するには:

  1. サイドバーで、 AI ゲートウェイ をクリックします。
  2. AI ゲートウェイエンドポイントの作成を クリックします。
  3. エンドポイント名とプライマリ モデルを構成します。
  4. 作成 をクリックします。

エンドポイントの機能を構成する

AI ゲートウェイ エンドポイントを更新して、機能を有効または無効にすることができます。AI ゲートウェイ構成の更新が有効になるまでに最大 1 分かかります。

既存のエンドポイントで AI ゲートウェイ機能を更新するには:

  1. AI ゲートウェイ ページからエンドポイントをクリックします。
  2. ゲートウェイ エンドポイントの詳細サイドバーで、更新する機能の横にある編集アイコンをクリックします。
  3. 変更を加えて、 「保存」 をクリックします。

AIゲートウェイUI

次の表は、利用可能な AI ゲートウェイ機能とその構成方法をまとめたものです。

機能

設定方法

詳細

使用状況の追跡

デフォルトで有効になっています。

  • 使用状況データをsystem.ai_gateway.usageシステムテーブルに記録します。
  • アカウント管理者は、システム テーブルを使用する前に、 ai_gatewayシステム テーブル スキーマを有効にする必要があります。 「システムテーブルへのアクセスの許可」を参照してください。
  • system.ai_gateway.usageテーブルを表示またはクエリする権限を持つのはアカウント管理者のみです。
  • モデルによってトークン数が返されない場合、入力トークン数と出力トークン数は(text_length+1)/4と推定されます。

推論テーブル

推論テーブルを有効にする を選択して、リクエストと応答をログに記録します。

  • Unity Catalog Deltaテーブルにログを記録します。
  • 指定されたカタログ スキーマにはCREATE TABLE権限が必要です。
  • 10 MiB を超えるペイロードはログに記録されません。
  • 応答ペイロードは、返されたすべてのチャンクの応答を集約します。

レート制限

1 分あたりのクエリ数 (QPM) または 1 分あたりのトークン数 (TPM) を構成するには、 レート制限 を選択します。

  • エンドポイント、ユーザー、またはグループ レベルで制限を構成します。

    • エンドポイント フィールドを使用してグローバル制限を設定します。エンドポイントのレート制限はグローバル最大値です。超過した場合、すべてのリクエストがブロックされます。
    • ユーザー (デフォルト) フィールドを使用して、ユーザーごとの制限を設定します。
      • 個々のユーザー、サービスプリンパルシ、またはグループのカスタムレート制限を定義します。
  • 最大 20 個のレート制限と最大 5 個のグループ固有のレート制限を指定できます。

  • ユーザーに QPM と TPM の両方の制限がある場合、より厳しい制限が適用されます。

  • レート制限は、エンドポイントをクエリする権限を持つユーザーにのみ適用されます。

  • デフォルトでは、ユーザーまたはエンドポイントに対してレート制限は設定されていません。

  • カスタム レート制限は、ユーザー (デフォルト) レート制限を上書きします。

    • ユーザーがユーザー固有の制限とグループ固有の制限の両方に属している場合は、ユーザー固有の制限が適用されます。
    • ユーザーがレート制限が異なる複数のユーザー グループに属している場合、そのユーザー グループのすべての QPM レート制限またはすべての TPM レート制限を超えると、レート制限が適用されます。

フォールバック

フォールバック モデルを構成するには、 「フォールバック モデルの追加」 を選択します。

  • プライマリ モデルが429または5XXエラーを返す場合、リクエストは他のモデルにフォールバックします。
  • 要求が成功するまで、各フォールバック モデルが順番に 1 回ずつ試行されます。
  • 最初の成功した、または最後に失敗した要求の試行と応答は、使用状況追跡テーブルと推論テーブルの両方に記録されます。
  • すべてのフォールバック試行は、使用状況追跡テーブルrouting_informationフィールドに記録されます。

次の図は、3 つのモデルが AI ゲートウェイ エンドポイントの宛先として登録されているフォールバックの例を示しています。

  1. リクエストは最初にモデル 1 にルーティングされます。
  2. リクエストが 200 応答を返す場合、リクエストはモデル 1 で成功し、リクエストとその応答は使用状況追跡テーブルと推論テーブルに記録されます。
  3. リクエストがモデル 1 で429または5XXエラーを返す場合、リクエストはエンドポイントの次のモデルであるモデル 2 にフォールバックします。
  4. リクエストがモデル 2 で429または5XXエラーを返す場合、リクエストはエンドポイントの次のモデルであるモデル 3 にフォールバックします。
  5. リクエストがモデル 3 で429または5XXエラーを返す場合、すべてのフォールバック モデルが試行されているため、リクエストは失敗します。失敗した要求と応答エラーは、使用状況追跡テーブルと推論テーブルに記録されます。

フォールバックの例

次のステップ