メインコンテンツまでスキップ

サービスエンドポイントでのルート最適化

この記事では、 モデルサービング エンドポイントでルート最適化を有効にする方法について説明します。 ルート最適化型サービスエンドポイントは、オーバーヘッドレイテンシーを劇的に削減し、エンドポイントがサポートするスループットの大幅な改善を可能にします。

ルート最適化されたエンドポイントは、異なる URL の使用や OAuth トークンを使用した認証など、ルート最適化されていないエンドポイントとは異なる方法でクエリされます。詳細については、 「クエリルート最適化サービス エンドポイント」を参照してください。

ルート最適化とは?

エンドポイントでルート最適化を有効にすると、 Databricks モデルサービングによって推論リクエストのネットワークパスが改善され、クライアントとモデル間の通信が高速かつ直接的になります。 この最適化されたルーティングにより、最適化されていないエンドポイントと比較して、1 秒あたりのクエリ数 (QPS) が高くなり、アプリケーションの安定性と遅延が短縮されます。

必要条件

モデルサービングエンドポイントでのルート最適化の有効化

ルートの最適化は、 Serving UI を使用してモデルサービングエンドポイントを作成するときに有効にできます。 ルート最適化を有効にできるのはエンドポイントの作成時のみで、既存のエンドポイントをルート最適化に更新することはできません。

  1. サイドバーで、「 Serving 」をクリックしてServing UIを表示します。
  2. サービングエンドポイントの作成 をクリックします。
  3. [ ルートの最適化 ] セクションで、[ ルートの最適化を有効にする] を選択します。
  4. エンドポイントが作成されると、Databricks から、ルート最適化エンドポイントのクエリに必要なものに関する通知が送信されます。

モデルサービングエンドポイントを作成する

制限

  • ルート最適化は、カスタムモデルサービングエンドポイントでのみ使用できます。 基盤モデル、APIs、または外部モデルを使用するエンドポイントの提供はサポートされていません。
  • Databricks の社内 OAuth トークンは、ルート最適化でサポートされている唯一の認証です。 個人用アクセス トークンはサポートされていません。

追加のリソース