メインコンテンツまでスキップ

サービスエンドポイントでのルート最適化

この記事では、 モデルサービング または Feature Serving エンドポイントでルート最適化を有効にする方法について説明します。 ルート最適化型サービスエンドポイントは、オーバーヘッドレイテンシーを劇的に削減し、エンドポイントがサポートするスループットの大幅な改善を可能にします。

ルート最適化されたエンドポイントは、異なる URL の使用や OAuth トークンを使用した認証など、ルート最適化されていないエンドポイントとは異なる方法でクエリされます。詳細については、 「クエリルート最適化サービス エンドポイント」を参照してください。

ルート最適化とは?

エンドポイントでルート最適化を有効にすると、 Databricks モデルサービングによって推論リクエストのネットワークパスが改善され、クライアントとモデル間の通信が高速かつ直接的になります。 この最適化されたルーティングにより、最適化されていないエンドポイントと比較して、1 秒あたりのクエリ数 (QPS) が高くなり、アプリケーションの安定性と遅延が短縮されます。

必要条件

モデルサービングエンドポイントでのルート最適化の有効化

ルートの最適化は、 Serving UI を使用してモデルサービングエンドポイントを作成するときに有効にできます。 ルート最適化を有効にできるのはエンドポイントの作成時のみで、既存のエンドポイントをルート最適化に更新することはできません。

  1. サイドバーで、「 Serving 」をクリックしてServing UIを表示します。
  2. サービングエンドポイントの作成 をクリックします。
  3. [ ルートの最適化 ] セクションで、[ ルートの最適化を有効にする] を選択します。
  4. エンドポイントが作成されると、Databricks から、ルート最適化エンドポイントのクエリに必要なものに関する通知が送信されます。

モデルサービングエンドポイントを作成する

Feature Servingエンドポイントでのルート最適化の有効化

特徴量と関数サービング のルート最適化を使用するには、エンドポイント作成要求を処理するための entity_name フィールドに機能仕様の完全な名前を指定します。 entity_versionFeatureSpecsには必要ありません。

Bash

POST /api/2.0/serving-endpoints

{
"name": "my-endpoint",
"config":
{
"served_entities":
[
{
"entity_name": "catalog_name.schema_name.feature_spec_name",
"workload_type": "CPU",
"workload_size": "Small",
"scale_to_zero_enabled": true
}
]
},
"route_optimized": true
}

制限

  • ルート最適化は、カスタムモデルサービングエンドポイントと Feature Serving エンドポイントでのみ使用できます。 基盤モデル、APIs、または外部モデルを使用するエンドポイントの提供はサポートされていません。
  • Databricks の社内 OAuth トークンは、ルート最適化でサポートされている唯一の認証です。 個人用アクセス トークンはサポートされていません。

追加のリソース