AI ゲートウェイ エンドポイントのレート制限を構成する
備考
ベータ版
この機能はベータ版です。アカウント管理者は、アカウント コンソールの [プレビュー] ページからこの機能へのアクセスを制御できます。 「Databricks プレビューの管理」を参照してください。
このページでは、AI Gateway (ベータ)エンドポイントのレート制限を構成する方法について説明します。レート制限を使用すると、エンドポイントに消費制限を適用して、容量とコストを管理できます。
要件
- お使いのアカウントで AI ゲートウェイ (ベータ版) プレビューが有効になっています。「Databricks プレビューの管理」を参照してください。
- AI Gateway (ベータ) がサポートされているリージョン内の Databricks ワークスペース。
エンドポイントのレート制限を構成する
エンドポイントがサポートできる 1 分あたりのクエリ数 (QPM) または 1 分あたりのトークン数 (TPM) を管理および指定できます。
レート制限を有効にするには、AI ゲートウェイ エンドポイントを構成するときに 「レート制限」 を選択します。クエリベースおよびトークンベースのレート制限は、次のレベルで定義できます。
フィールド | 説明 |
|---|---|
エンドポイント | エンドポイント全体で処理できる最大の QPM または TPM を指定します。この制限は、ユーザーに関係なく、すべてのトラフィックに適用されます。 |
ユーザー(デフォルト) | より具体的なカスタム レート制限が定義されていない限り、エンドポイントのすべてのユーザーに適用される、ユーザーごとのデフォルトのレート制限を指定します。 |
カスタムレート制限 | 次の項目に対してカスタム レート制限を指定できます。
|
詳細と動作
- レート制限は、エンドポイントをクエリする権限を持つユーザーにのみ適用されます。
- デフォルトでは、ユーザーまたはエンドポイントに対してレート制限は設定されていません。
- エンドポイントのレート制限はグローバル最大値です。この制限を超えると、ユーザー固有またはグループ固有のレート制限に関係なく、エンドポイントへのすべてのリクエストがブロックされます。
- エンドポイント、ユーザー、またはDatabricksサービス プリンシパルにクエリ ベースのレート制限とホルムアルデヒド ベースのレート制限の両方が指定されている場合、より制限の厳しいレート制限が適用されます。
- カスタム レート制限は 、ユーザー (デフォルト) レート制限を上書きします。
- ユーザーがユーザー固有の制限とグループ固有の制限の両方に属している場合は、ユーザー固有の制限が適用されます。
- ユーザーが、異なる QPM または TPM レート制限を持つ複数のユーザー グループに属している場合、そのユーザーがそのユーザー グループのすべての QPM レート制限またはすべての TPM レート制限を超えると、レート制限が適用されます。
制限事項
- エンドポイントごとに最大 20 個のレート制限を指定できます。
- エンドポイントごとに最大 5 つのグループ固有のレート制限を指定できます。