サービスエンドポイントでのルート最適化
この記事では、 モデルサービング または Feature Serving エンドポイントでルート最適化を有効にする方法について説明します。 ルート最適化型サービスエンドポイントは、オーバーヘッドレイテンシーを劇的に削減し、エンドポイントがサポートするスループットの大幅な改善を可能にします。
ルートの最適化は、高スループットまたは待機時間の影響を受けやすいワークロードに推奨されます。
ルート最適化とは?
エンドポイントでルート最適化を有効にすると、 Databricks モデルサービングによって推論リクエストのネットワークパスが改善され、クライアントとモデル間の通信が高速かつ直接的になります。 この最適化されたルーティングにより、最適化されていないエンドポイントと比較して、1 秒あたりのクエリ数 (QPS) が高くなり、アプリケーションの安定性と遅延が短縮されます。
ルート最適化エンドポイントの利点を活用するには、クライアントに次の変更を加える必要があります。
- ルート最適化 URL を使用する: ルート最適化エンドポイントには、それぞれ一意の URL があります。推論要求は、この特定の URL に送信する必要があります。
- OAuth トークンを使用した認証: ルート最適化エンドポイントは、認証用の OAuth トークンのみをサポートします。他の認証メカニズムはサポートされていません。
必要条件
モデルサービングエンドポイントでのルート最適化の有効化
- Serving UI
- REST API
- Python
ルートの最適化は、 Serving UI を使用してモデルサービングエンドポイントを作成するときに有効にできます。 ルート最適化を有効にできるのはエンドポイントの作成時のみで、既存のエンドポイントをルート最適化に更新することはできません。
- サイドバーで、「 Serving 」をクリックしてServing UIを表示します。
- サービングエンドポイントの作成 をクリックします。
- [ ルートの最適化 ] セクションで、[ ルートの最適化を有効にする] を選択します。
- エンドポイントが作成されると、Databricks から、ルート最適化エンドポイントのクエリに必要なものに関する通知が送信されます。
REST APIを使用してルート最適化のためにサービングエンドポイントを設定するには、モデルサービングエンドポイントの作成時に route_optimized
パラメーターを指定します。このパラメーターはエンドポイントの作成時にのみ指定でき、既存のエンドポイントをルート最適化に更新することはできません。
POST /api/2.0/serving-endpoints
{
"name": "my-endpoint",
"config":
{
"served_entities":
[{
"entity_name": "ads1",
"entity_version": "1",
"workload_type": "CPU",
"workload_size": "Small",
"scale_to_zero_enabled": true,
}],
},
"route_optimized": true
}
Python を使用する場合は、次のノートブックを使用して、ルート最適化サービング エンドポイントを作成できます。
Python ノートブックを使用してルート最適化サービング エンドポイントを作成する
Feature Servingエンドポイントでのルート最適化の有効化
特徴量と関数サービング のルート最適化を使用するには、エンドポイント作成要求を処理するための entity_name
フィールドに機能仕様の完全な名前を指定します。 entity_version
はFeatureSpecs
には必要ありません。
POST /api/2.0/serving-endpoints
{
"name": "my-endpoint",
"config":
{
"served_entities":
[
{
"entity_name": "catalog_name.schema_name.feature_spec_name",
"workload_type": "CPU",
"workload_size": "Small",
"scale_to_zero_enabled": true
}
]
},
"route_optimized": true
}
制限
- ルート最適化は、カスタムモデルサービングエンドポイントと Feature Serving エンドポイントでのみ使用できます。 基盤モデル、APIs、または外部モデルを使用するエンドポイントの提供はサポートされていません。
- Databricks の社内 OAuth トークンは、ルート最適化でサポートされている唯一の認証です。 個人用アクセス トークンはサポートされていません。