サービスエンドポイントでのルート最適化
この記事では、 モデルサービング または Feature Serving エンドポイントでルート最適化を有効にする方法について説明します。 ルート最適化型サービスエンドポイントは、オーバーヘッドレイテンシーを劇的に削減し、エンドポイントがサポートするスループットの大幅な改善を可能にします。
ルート最適化されたエンドポイントは、異なる URL の使用や OAuth トークンを使用した認証など、ルート最適化されていないエンドポイントとは異なる方法でクエリされます。詳細については、 「クエリルート最適化サービス エンドポイント」を参照してください。
ルート最適化とは?
エンドポイントでルート最適化を有効にすると、 Databricks モデルサービングによって推論リクエストのネットワークパスが改善され、クライアントとモデル間の通信が高速かつ直接的になります。 この最適化されたルーティングにより、最適化されていないエンドポイントと比較して、1 秒あたりのクエリ数 (QPS) が高くなり、アプリケーションの安定性と遅延が短縮されます。
必要条件
- モデルサービング エンドポイント のルート最適化には、ルート最適化されていないモデルサービング エンドポイントと同じ要件があります。
- Feature Servingエンドポイント でのルート最適化には、ルートが最適化されていないFeature Servingエンドポイントと同じ要件があります。
モデルサービングエンドポイントでのルート最適化の有効化
- Serving UI
- REST API
- Python
- Databricks SDK
ルートの最適化は、 Serving UI を使用してモデルサービングエンドポイントを作成するときに有効にできます。 ルート最適化を有効にできるのはエンドポイントの作成時のみで、既存のエンドポイントをルート最適化に更新することはできません。
- サイドバーで、「 Serving 」をクリックしてServing UIを表示します。
- サービングエンドポイントの作成 をクリックします。
- [ ルートの最適化 ] セクションで、[ ルートの最適化を有効にする] を選択します。
- エンドポイントが作成されると、Databricks から、ルート最適化エンドポイントのクエリに必要なものに関する通知が送信されます。

REST APIを使用してルート最適化のためにサービングエンドポイントを設定するには、モデルサービングエンドポイントの作成時に route_optimized パラメーターを指定します。このパラメーターはエンドポイントの作成時にのみ指定でき、既存のエンドポイントをルート最適化に更新することはできません。
POST /api/2.0/serving-endpoints
{
"name": "my-endpoint",
"config":
{
"served_entities":
[{
"entity_name": "ads1",
"entity_version": "1",
"workload_type": "CPU",
"workload_size": "Small",
"scale_to_zero_enabled": true,
}],
},
"route_optimized": true
}
Python を使用する場合は、次のノートブックを使用して、ルート最適化サービング エンドポイントを作成できます。
Python ノートブックを使用してルート最適化サービング エンドポイントを作成する
Databricks SDK使用してルートを最適化するためのサービング エンドポイントを構成するには、モデルサービング エンドポイントの作成時にroute_optimizedを指定します。 この 引数 はエンドポイントの作成時にのみ指定でき、既存のエンドポイントを更新してルートを最適化することはできません。
from databricks.sdk import WorkspaceClient
from databricks.sdk.service.serving import EndpointCoreConfigInput, ServedEntityInput
workspace = WorkspaceClient()
workspace.serving_endpoints.create(
name="my-serving-endpoint",
config = EndpointCoreConfigInput(
served_entities=[
ServedEntityInput(
entity_name="main.default.my-served-entity",
scale_to_zero_enabled=True,
workload_size="Small"
)
]
),
route_optimized=True
)
Feature Servingエンドポイントでのルート最適化の有効化
特徴量と関数サービング のルート最適化を使用するには、エンドポイント作成要求を処理するための entity_name フィールドに機能仕様の完全な名前を指定します。 entity_versionはFeatureSpecsには必要ありません。
POST /api/2.0/serving-endpoints
{
"name": "my-endpoint",
"config":
{
"served_entities":
[
{
"entity_name": "catalog_name.schema_name.feature_spec_name",
"workload_type": "CPU",
"workload_size": "Small",
"scale_to_zero_enabled": true
}
]
},
"route_optimized": true
}
制限
- ルート最適化は、カスタムモデルサービングエンドポイントと Feature Serving エンドポイントでのみ使用できます。 基盤モデル、APIs、または外部モデルを使用するエンドポイントの提供はサポートされていません。
- Databricks の社内 OAuth トークンは、ルート最適化でサポートされている唯一の認証です。 個人用アクセス トークンはサポートされていません。