サービスエンドポイントでのルート最適化

この記事では、モデルサービングまたは Feature Serving エンドポイントでルート最適化を有効にする方法について説明します。ルート最適化型サービスエンドポイントは、オーバーヘッドレイテンシーを劇的に削減し、エンドポイントがサポートするスループットの大幅な改善を可能にします。

ルート最適化されたエンドポイントは、異なる URL の使用や OAuth トークンを使用した認証など、ルート最適化されていないエンドポイントとは異なる方法でクエリされます。詳細については、「クエリルート最適化サービスエンドポイント」を参照してください。

ルート最適化とは?

エンドポイントでルート最適化を有効にすると、 Databricks モデルサービングによって推論リクエストのネットワークパスが改善され、クライアントとモデル間の通信が高速かつ直接的になります。この最適化されたルーティングにより、最適化されていないエンドポイントと比較して、1 秒あたりのクエリ数 (QPS) が高くなり、アプリケーションの安定性と遅延が短縮されます。

ヒント

ルートの最適化は、本番運用のワークロードを最適化するためのいくつかの戦略の 1 つです。最適化手法の包括的なガイドについては、「本番運用のためのモデルサービングエンドポイントの最適化」を参照してください。

必要条件

モデルサービングエンドポイント のルート最適化には、ルート最適化されていないモデルサービングエンドポイントと同じ要件があります。
Feature Servingエンドポイント でのルート最適化には、ルートが最適化されていないFeature Servingエンドポイントと同じ要件があります。

モデルサービングエンドポイントでのルート最適化の有効化

Serving UI
REST API
Python
Databricks SDK

ルートの最適化は、 Serving UI を使用してモデルサービングエンドポイントを作成するときに有効にできます。ルート最適化を有効にできるのはエンドポイントの作成時のみで、既存のエンドポイントをルート最適化に更新することはできません。

サイドバーで、「 Serving 」をクリックしてServing UIを表示します。
サービングエンドポイントの作成 をクリックします。
[ ルートの最適化 ] セクションで、[ ルートの最適化を有効にする] を選択します。
エンドポイントが作成されると、Databricks から、ルート最適化エンドポイントのクエリに必要なものに関する通知が送信されます。

モデルサービングエンドポイントを作成する

REST APIを使用してルート最適化のためにサービングエンドポイントを設定するには、モデルサービングエンドポイントの作成時に route_optimized パラメーターを指定します。このパラメーターはエンドポイントの作成時にのみ指定でき、既存のエンドポイントをルート最適化に更新することはできません。

Bash
POST /api/2.0/serving-endpoints

{
  "name": "my-endpoint",
  "config":
  {
    "served_entities":
    [{
      "entity_name": "ads1",
      "entity_version": "1",
      "workload_type": "CPU",
      "workload_size": "Small",
      "scale_to_zero_enabled": true,
    }],
  },
  "route_optimized": true
}

Databricks SDK使用してルートを最適化するためのサービングエンドポイントを構成するには、モデルサービングエンドポイントの作成時にroute_optimizedを指定します。この引数はエンドポイントの作成時にのみ指定でき、既存のエンドポイントを更新してルートを最適化することはできません。

Python
from databricks.sdk import WorkspaceClient
from databricks.sdk.service.serving import EndpointCoreConfigInput, ServedEntityInput

workspace = WorkspaceClient()

workspace.serving_endpoints.create(
  name="my-serving-endpoint",
  config = EndpointCoreConfigInput(
    served_entities=[
    ServedEntityInput(
        entity_name="main.default.my-served-entity",
        scale_to_zero_enabled=True,
        workload_size="Small"
      )
    ]
  ),
  route_optimized=True
)

Feature Servingエンドポイントでのルート最適化の有効化

特徴量と関数サービングのルート最適化を使用するには、エンドポイント作成要求を処理するための entity_name フィールドに機能仕様の完全な名前を指定します。 entity_versionはFeatureSpecsには必要ありません。

Bash

POST /api/2.0/serving-endpoints

{
  "name": "my-endpoint",
  "config":
  {
    "served_entities":
    [
      {
        "entity_name": "catalog_name.schema_name.feature_spec_name",
        "workload_type": "CPU",
        "workload_size": "Small",
        "scale_to_zero_enabled": true
      }
    ]
  },
  "route_optimized": true
}

制限

ルート最適化は、カスタムモデルサービングエンドポイントと Feature Serving エンドポイントでのみ使用できます。基盤モデル、APIs、または外部モデルを使用するエンドポイントの提供はサポートされていません。
Databricks の社内 OAuth トークンは、ルート最適化でサポートされている唯一の認証です。個人用アクセストークンはサポートされていません。

サービスエンドポイントでのルート最適化

ルート最適化とは?

必要条件

モデルサービングエンドポイントでのルート最適化の有効化

Python ノートブックを使用してルート最適化サービングエンドポイントを作成する

Feature Servingエンドポイントでのルート最適化の有効化

制限

追加のリソース

ルート最適化とは?​

必要条件​

モデルサービングエンドポイントでのルート最適化の有効化​

Python ノートブックを使用してルート最適化サービング エンドポイントを作成する

Feature Servingエンドポイントでのルート最適化の有効化​

制限​

追加のリソース​

ルート最適化とは?

必要条件

モデルサービングエンドポイントでのルート最適化の有効化

Python ノートブックを使用してルート最適化サービングエンドポイントを作成する

Feature Servingエンドポイントでのルート最適化の有効化

制限

追加のリソース