メインコンテンツまでスキップ

高QPSでエンドポイントのスループットをスケーリングする

備考

プレビュー

この機能は パブリック プレビュー段階です。

デフォルトでは、標準エンドポイントはインデックスのサイズに応じて20~200 QPSをサポートしています。検索バー、レコメンデーションシステム、エンティティマッチングのようなリアルタイムアプリケーションは、多くの場合、100〜1,000以上のQPSを必要とします。標準エンドポイントのみ、ターゲットQPSを設定できます。Databricks は、そのスループットレベルに最適に一致するようにインフラストラクチャをプロビジョニングします(ベストエフォートであり、保証されません)。

重要

ターゲットQPSを設定すると、追加の容量がプロビジョニングされ、エンドポイントのコストが増加します。この追加のキャパシティには、実際のクエリトラフィックに関わらず課金されます。スループットのスケーリングはベストエフォートであり、パブリックプレビュー期間中は保証されません。

高QPSを使用するのは、次のような場合です:

  • お客様のアプリケーションには、50 QPSを超える持続的なスループットが必要です。
  • 通常の負荷時に429 (リクエストが多すぎます) エラーが発生します。
  • トラフィックが増加すると、平均利用率が低く見える場合でも、レイテンシは低下します。

要件

  • High QPSは標準エンドポイントでのみ利用可能です。ストレージ最適化エンドポイントはサポートされていません。
  • 高QPSの本番運用ワークロード向けに、サービスプリンシパル(OAuth)認証を使用します。サービスプリンシパルのトラフィックは、高QPSワークロード向けに構築されたパフォーマンス最適化ネットワークを経由します。パーソナルアクセストークン(PAT)は、数十QPSに制限されたネットワークを介してルーティングされます—これはプロトタイピングには適していますが、本番運用には適していません。「OAuthトークンを使用したサービスプリンシパル」を参照してください。

ターゲットQPSを設定する

新しいエンドポイントを作成する際、または既存のエンドポイントを更新する際に、ターゲットQPSを設定します。ターゲットスループットに最適に一致させるために必要な追加容量は、自動的にプロビジョニングされます。Public Preview では、スループットのスケーリングはベストエフォートであり、保証されません:実際の QPS は、インデックスのサイズ、ベクトルの次元数、クエリーの複雑さ、およびフィルターの使用状況によって異なります。

新しいエンドポイントを作成する際:

  1. 左側のサイドバーで、 コンピュート をクリックします。

  2. 「**AI Search**」タブをクリックし、「**エンドポイントを作成**」をクリックします。

    AI検索コンピュートを作成します。

  3. 「高度な設定」で、ターゲットQPS値を入力してください。

    「AI検索エンドポイントの作成」ダイアログを作成します。

既存のエンドポイントを更新する際:

  1. エンドポイントの詳細ページに移動してください。

  2. 右側のパネルで、鉛筆アイコン。 「ターゲットQPS」 の横にある鉛筆アイコン をクリックします。

    ターゲットQPSを編集してください。

  3. 新しい値を入力し、「 保存 」をクリックします。

    ターゲットQPS値を入力してください。

スケーリングの適用方法

ターゲットQPSの設定後、必要な容量が自動的にプロビジョニングされます。新しいスループットレベルは、プロビジョニングが完了した後に適用されます;変更をトリガーするためにインデックスを同期する必要はありません。

注記

スケーリング操作の進行中にターゲットQPSの更新を試行すると、RESOURCE_CONFLICTエラーが返されます。現在の操作が完了するのを待ってから、再試行してください。

制限事項:

  • オートスケールなし:予測されるトラフィックに基づいて、ターゲットQPSを手動で設定する必要があります。トラフィックがプロビジョニングされたレベルを超過した場合、429エラーが発生します。「クエリ スパイクの計画」を参照してください。
  • 標準エンドポイントに限り:ストレージ最適化エンドポイントはtarget_qps をサポートしていません。