メインコンテンツまでスキップ

サービスエンドポイントでのルート最適化

この記事では、 モデルサービング または Feature Serving エンドポイントでルート最適化を有効にする方法について説明します。 ルート最適化型サービスエンドポイントは、オーバーヘッドレイテンシーを劇的に削減し、エンドポイントがサポートするスループットの大幅な改善を可能にします。

ルートの最適化は、高スループットまたは待機時間の影響を受けやすいワークロードに推奨されます。

ルート最適化とは?

エンドポイントでルート最適化を有効にすると、 Databricks モデルサービングによって推論リクエストのネットワークパスが改善され、クライアントとモデル間の通信が高速かつ直接的になります。 この最適化されたルーティングにより、最適化されていないエンドポイントと比較して、1 秒あたりのクエリ数 (QPS) が高くなり、アプリケーションの安定性と遅延が短縮されます。

ルート最適化エンドポイントの利点を活用するには、クライアントに次の変更を加える必要があります。

  • ルート最適化 URL を使用する: ルート最適化エンドポイントには、それぞれ一意の URL があります。推論要求は、この特定の URL に送信する必要があります。
  • OAuth トークンを使用した認証: ルート最適化エンドポイントは、認証用の OAuth トークンのみをサポートします。他の認証メカニズムはサポートされていません。

必要条件

  • モデルサービングエンドポイント でのルート最適化については、要件を参照してください。
  • Feature Servingエンドポイント でのルート最適化については、「要件」を参照してください。

モデルサービングエンドポイントでのルート最適化の有効化

ルートの最適化は、 Serving UI を使用してモデルサービングエンドポイントを作成するときに有効にできます。 ルート最適化を有効にできるのはエンドポイントの作成時のみで、既存のエンドポイントをルート最適化に更新することはできません。

  1. サイドバーで、「 Serving 」をクリックしてServing UIを表示します。
  2. サービングエンドポイントの作成 をクリックします。
  3. [ ルートの最適化 ] セクションで、[ ルートの最適化を有効にする] を選択します。
  4. エンドポイントが作成されると、Databricks から、ルート最適化エンドポイントのクエリに必要なものに関する通知が送信されます。

モデルサービングエンドポイントを作成する

Feature Servingエンドポイントでのルート最適化の有効化

特徴量と関数サービング のルート最適化を使用するには、エンドポイント作成要求を処理するための entity_name フィールドに機能仕様の完全な名前を指定します。 entity_versionFeatureSpecsには必要ありません。

Bash

POST /api/2.0/serving-endpoints

{
"name": "my-endpoint",
"config":
{
"served_entities":
[
{
"entity_name": "catalog_name.schema_name.feature_spec_name",
"workload_type": "CPU",
"workload_size": "Small",
"scale_to_zero_enabled": true
}
]
},
"route_optimized": true
}

制限

  • ルート最適化は、カスタムモデルサービングエンドポイントと Feature Serving エンドポイントでのみ使用できます。 基盤モデル、APIs、または外部モデルを使用するエンドポイントの提供はサポートされていません。
  • Databricks の社内 OAuth トークンは、ルート最適化でサポートされている唯一の認証です。 個人用アクセス トークンはサポートされていません。

追加のリソース

この記事は役に立ちましたか?