Unity AI Gatewayエンドポイントのレート制限を設定する

備考

ベータ版

この機能はベータ版です。アカウント管理者は、アカウントコンソールの [プレビュー] ページからこの機能へのアクセスを制御できます。「Databricks プレビューの管理」を参照してください。

このページでは、Unity AI Gatewayエンドポイントのレート制限を設定する方法について説明します。レート制限を使用すると、エンドポイントにおける消費量に制限を設けて、容量とコストを管理できます。

要件

エンドポイントがサポートできる 1 分あたりのクエリ数 (QPM) または 1 分あたりのトークン数 (TPM) を管理および指定できます。

レート制限を有効にするには、Unity AI Gatewayエンドポイントの設定時に 「レート制限」 を選択してください。クエリベースおよびトークンベースのレート制限は、以下のレベルで定義できます。

フィールド	説明
エンドポイント	エンドポイント全体で処理できる最大の QPM または TPM を指定します。この制限は、ユーザーに関係なく、すべてのトラフィックに適用されます。
ユーザー（デフォルト）	より具体的なカスタムレート制限が定義されていない限り、エンドポイントのすべてのユーザーに適用される、ユーザーごとのデフォルトのレート制限を指定します。
カスタムレート制限	次の項目に対してカスタムレート制限を指定できます。個々のユーザーまたはサービスプリンシパル : これらはユーザーグループのカスタムレート制限よりも優先されます。ユーザーグループ : この制限は、グループのすべてのメンバーに対する共有のレート制限です。

フィールド

説明

エンドポイント

エンドポイント全体で処理できる最大の QPM または TPM を指定します。この制限は、ユーザーに関係なく、すべてのトラフィックに適用されます。

ユーザー（デフォルト）

より具体的なカスタムレート制限が定義されていない限り、エンドポイントのすべてのユーザーに適用される、ユーザーごとのデフォルトのレート制限を指定します。

カスタムレート制限

次の項目に対してカスタムレート制限を指定できます。

レート制限は、エンドポイントをクエリする権限を持つユーザーにのみ適用されます。
デフォルトでは、ユーザーまたはエンドポイントに対してレート制限は設定されていません。
エンドポイントのレート制限はグローバル最大値です。この制限を超えると、ユーザー固有またはグループ固有のレート制限に関係なく、エンドポイントへのすべてのリクエストがブロックされます。
エンドポイント、ユーザー、またはDatabricksサービスプリンシパルにクエリベースのレート制限とホルムアルデヒドベースのレート制限の両方が指定されている場合、より制限の厳しいレート制限が適用されます。
カスタムレート制限は 、ユーザー (デフォルト) レート制限を上書きします。
- ユーザーがユーザー固有の制限とグループ固有の制限の両方に属している場合は、ユーザー固有の制限が適用されます。
- ユーザーが、異なる QPM または TPM レート制限を持つ複数のユーザーグループに属している場合、そのユーザーがそのユーザーグループのすべての QPM レート制限またはすべての TPM レート制限を超えると、レート制限が適用されます。

レート制限を超過した場合、エンドポイントはHTTP 429（リクエストが多すぎます）応答を返します。クライアントは、指数バックオフを用いた再試行ロジックを実装する必要があります。

レートリミッターは低遅延を実現するように設計されているため、以下の動作が想定されます。

リクエストは事前にチェックされません。システムは応答送信後に使用状況を記録するため、複数のリクエストが同時に到着した場合、使用状況がカウントされる前にすべてのリクエストが処理される可能性があります。その後、容量が回復するまで、それ以降のリクエストは拒否されます。実際には、トラフィックのバーストとその後の短い停止が繰り返しのパターンで発生することがあります。
制限はサービスインスタンスごとに個別に適用されるため、特にエンドポイントの作成または更新直後には、設定された制限をわずかに超える短時間のバーストが発生する可能性があります。

より長い時間枠で見ると、平均リクエストレートは設定された制限値に収束する。