メインコンテンツまでスキップ

Unity AI Gateway を使用してAIサービスのレート制限を構成する

備考

ベータ版

この機能はベータ版です。アカウント管理者は、アカウント コンソールの [プレビュー] ページからこの機能へのアクセスを制御できます。 Databricksのプレビューを管理するを参照してください。

このページでは、Unity AI Gateway AI サービスに対するレート制限の構成方法について説明します。レート制限により、モデルサービスまたはMCPサービスでの消費制限を適用して、容量とコストを管理できます。

要件

「モデルサービスまたはMCPサービスでレート制限を構成する」

サービス タイプに応じて、1分あたりのリクエスト数(QPM)または1分あたりのトークン数(TPM)に基づいてレート制限を設定できます:

  • モデルサービス :1分あたりのリクエスト数(QPM)と1分あたりのトークン数(TPM)の制限を設定します。
  • MCPサービス :1分あたりのリクエスト数(QPM)の制限を設定します。トークンベースの制限は、MCPサービスには適用されません。

レート制限を有効にするには、モデルサービスまたはMCPサービスを構成する際に レート制限 を選択します。以下のレベルでレート制限を定義できます。

フィールド

説明

サービス

サービス全体が処理できる最大QPMまたはTPMを指定します。この制限は、ユーザーに関係なくすべてのトラフィックに適用されます。

ユーザー(デフォルト)

より具体的なカスタムレート制限が定義されていない限り、サービスのすべてのユーザーに適用されるデフォルトのユーザーごとのレート制限を指定します。

カスタムレート制限

カスタムレート制限は、以下に対して指定できます:

  • 個々のユーザーまたはサービスプリンシパル :これらはユーザーグループのカスタムレート制限よりも優先されます。
  • ユーザーグループ :この制限は、グループのすべてのメンバーに適用される共有レート制限です。

詳細・動作

  • レート制限は、サービスへのクエリ権限を持つユーザーにのみ適用されます。
  • デフォルトでは、ユーザーまたはサービスに対してレート制限は設定されていません。
  • サービスレート制限はグローバルな最大値です。この制限を超過した場合、ユーザー固有またはグループ固有のレート制限に関わらず、サービスへのすべてのリクエストがブロックされます。
  • サービス、ユーザー、または Databricks サービスプリンシパルに、リクエストベースのレート制限とトークンベースのレート制限の両方が指定されている場合、より厳密なレート制限が適用されます。
  • カスタムレート制限は ユーザー(デフォルト) レート制限を上書きします。
    • ユーザーがユーザーごとの制限とグループごとの制限の両方に属している場合、ユーザーごとの制限が適用されます。
    • ユーザーが異なるQPMまたはTPMレート制限を持つ複数のユーザーグループに属している場合、そのユーザーがすべてのQPMレート制限またはすべてのTPMレート制限のいずれかを超えると、レート制限が適用されます。

レートリミッターの動作

レート制限を超過すると、サービスはHTTP 429(リクエストが多すぎます)応答を返します。クライアントは指数バックオフを使用して再試行ロジックを実装する必要があります。

レートリミッターは低レイテンシ向けに設計されており、以下の動作が想定されます:

  • 並列リクエストは事前にチェックされません。システムは応答が送信された後に使用状況を記録するため、複数のリクエストが同時に到着した場合でも、使用状況がカウントされる前にそれらすべてが処理される可能性があります。その後、容量が回復するまで、それ以降のリクエストは拒否されます。実際には、トラフィックのバーストの後に短い停止するが繰り返しのパターンで見られることがあります。
  • 制限はサービスインスタンスごとに個別に適用されるため、特にサービスが作成または更新された直後には、設定された制限をわずかに上回る短時間の急増が発生する可能性があります。

より長い時間枠では、平均リクエストレートは構成された制限に収束します。

制限事項

  • サービスごとに最大20のレート制限を指定できます。
  • サービスごとに最大5つのグループ固有のレート制限を指定できます。

その他のリソース