AI ゲートウェイ エンドポイントのレート制限を構成する
備考
ベータ版
この機能はベータ版です。アカウント管理者は、アカウント コンソールの [プレビュー] ページからこの機能へのアクセスを制御できます。 「Databricks プレビューの管理」を参照してください。
このページでは、AI Gateway (ベータ)エンドポイントのレート制限を構成する方法について説明します。レート制限を使用すると、エンドポイントに消費制限を適用して、容量とコストを管理できます。
要件
- お使いのアカウントで AI ゲートウェイ (ベータ版) プレビューが有効になっています。「Databricks プレビューの管理」を参照してください。
- AI Gateway (ベータ) がサポートされているリージョン内の Databricks ワークスペース。
エンドポイントのレート制限を構成する
エンドポイントがサポートできる 1 分あたりのクエリ数 (QPM) または 1 分あたりのトークン数 (TPM) を管理および指定できます。
レート制限を有効にするには、AI ゲートウェイ エンドポイントを構成するときに 「レート制限」 を選択します。クエリベースおよびトークンベースのレート制限は、次のレベルで定義できます。
フィールド | 説明 |
|---|---|
エンドポイント | エンドポイント全体で処理できる最大の QPM または TPM を指定します。この制限は、ユーザーに関係なく、すべてのトラフィックに適用されます。 |
ユーザー(デフォルト) | より具体的なカスタム レート制限が定義されていない限り、エンドポイントのすべてのユーザーに適用される、ユーザーごとのデフォルトのレート制限を指定します。 |
カスタムレート制限 | 次の項目に対してカスタム レート制限を指定できます。
|
詳細と動作
- レート制限は、エンドポイントをクエリする権限を持つユーザーにのみ適用されます。
- デフォルトでは、ユーザーまたはエンドポイントに対してレート制限は設定されていません。
- エンドポイントのレート制限はグローバル最大値です。この制限を超えると、ユーザー固有またはグループ固有のレート制限に関係なく、エンドポイントへのすべてのリクエストがブロックされます。
- エンドポイント、ユーザー、またはDatabricksサービス プリンシパルにクエリ ベースのレート制限とホルムアルデヒド ベースのレート制限の両方が指定されている場合、より制限の厳しいレート制限が適用されます。
- カスタム レート制限は 、ユーザー (デフォルト) レート制限を上書きします。
- ユーザーがユーザー固有の制限とグループ固有の制限の両方に属している場合は、ユーザー固有の制限が適用されます。
- ユーザーが、異なる QPM または TPM レート制限を持つ複数のユーザー グループに属している場合、そのユーザーがそのユーザー グループのすべての QPM レート制限またはすべての TPM レート制限を超えると、レート制限が適用されます。
レートリミッターの動作
レート制限を超過した場合、エンドポイントはHTTP 429(リクエストが多すぎます)応答を返します。クライアントは、指数バックオフを用いた再試行ロジックを実装する必要があります。
レートリミッターは低遅延を実現するように設計されているため、以下の動作が想定されます。
- リクエストは事前にチェックされません。 システムは応答送信後に使用状況を記録するため、複数のリクエストが同時に到着した場合、使用状況がカウントされる前にすべてのリクエストが処理される可能性があります。その後、容量が回復するまで、それ以降のリクエストは拒否されます。実際には、トラフィックのバーストとその後の短い停止が繰り返しのパターンで発生することがあります。
- 制限はサービスインスタンスごとに個別に適用されるため、特にエンドポイントの作成または更新直後には、設定された制限をわずかに超える短時間のバーストが発生する可能性があります。
より長い時間枠で見ると、平均リクエストレートは設定された制限値に収束する。
制限事項
- エンドポイントごとに最大 20 個のレート制限を指定できます。
- エンドポイントごとに最大 5 つのグループ固有のレート制限を指定できます。