メインコンテンツまでスキップ

AI ゲートウェイ エンドポイントのレート制限を構成する

備考

ベータ版

この機能はベータ版です。アカウント管理者は、アカウント コンソールの [プレビュー] ページからこの機能へのアクセスを制御できます。 「Databricks プレビューの管理」を参照してください。

このページでは、AI Gateway (ベータ)エンドポイントのレート制限を構成する方法について説明します。レート制限を使用すると、エンドポイントに消費制限を適用して、容量とコストを管理できます。

要件

エンドポイントのレート制限を構成する

エンドポイントがサポートできる 1 分あたりのクエリ数 (QPM) または 1 分あたりのトークン数 (TPM) を管理および指定できます。

レート制限を有効にするには、AI ゲートウェイ エンドポイントを構成するときに 「レート制限」 を選択します。クエリベースおよびトークンベースのレート制限は、次のレベルで定義できます。

フィールド

説明

エンドポイント

エンドポイント全体で処理できる最大の QPM または TPM を指定します。この制限は、ユーザーに関係なく、すべてのトラフィックに適用されます。

ユーザー(デフォルト)

より具体的なカスタム レート制限が定義されていない限り、エンドポイントのすべてのユーザーに適用される、ユーザーごとのデフォルトのレート制限を指定します。

カスタムレート制限

次の項目に対してカスタム レート制限を指定できます。

  • 個々のユーザーまたはサービスプリンシパル : これらはユーザー グループのカスタム レート制限よりも優先されます。
  • ユーザー グループ : この制限は、グループのすべてのメンバーに対する共有のレート制限です。

詳細と動作

  • レート制限は、エンドポイントをクエリする権限を持つユーザーにのみ適用されます。
  • デフォルトでは、ユーザーまたはエンドポイントに対してレート制限は設定されていません。
  • エンドポイントのレート制限はグローバル最大値です。この制限を超えると、ユーザー固有またはグループ固有のレート制限に関係なく、エンドポイントへのすべてのリクエストがブロックされます。
  • エンドポイント、ユーザー、またはDatabricksサービス プリンシパルにクエリ ベースのレート制限とホルムアルデヒド ベースのレート制限の両方が指定されている場合、より制限の厳しいレート制限が適用されます。
  • カスタム レート制限は 、ユーザー (デフォルト) レート制限を上書きします。
    • ユーザーがユーザー固有の制限とグループ固有の制限の両方に属している場合は、ユーザー固有の制限が適用されます。
    • ユーザーが、異なる QPM または TPM レート制限を持つ複数のユーザー グループに属している場合、そのユーザーがそのユーザー グループのすべての QPM レート制限またはすべての TPM レート制限を超えると、レート制限が適用されます。

制限事項

  • エンドポイントごとに最大 20 個のレート制限を指定できます。
  • エンドポイントごとに最大 5 つのグループ固有のレート制限を指定できます。

次のステップ