Mosaic AI Model Serving概念
このページでは、モデルのデプロイメントのために Mosaic AI Model Serving で使用される主要な概念の定義を示します。
終点
推論用に 1 つ以上の提供モデルを公開する REST API。
ルート最適化エンドポイント
推論中にユーザーとモデル間のより高速で直接的な通信を実現する、改善されたネットワーク パスを可能にするエンドポイント プロパティ。詳細については、 「サービス エンドポイントでのルートの最適化」を参照してください。
プロビジョニングされた同時実行
エンドポイントが処理できる並列リクエストの最大数を指定するエンドポイント プロパティ。次の式を使用して必要な同時実行性を推定します: provisioned concurrency = queries per second (QPS) \* model execution time (s) 。
ゼロにスケール
エンドポイントが使用されていないときにリソース消費を自動的にゼロにするエンドポイント プロパティ。テストおよび開発の場合は、ゼロにスケールすることをお勧めします。ただし、ゼロにスケールするとレイテンシが大きくなり、容量が保証されないため、本番運用エンドポイントではゼロにスケールすることは推奨されません。
サービス対象エンティティ
ルーティングされたトラフィックを受信できるコンピュート構成を持つ特定のモデルを表すエンドポイント内の名前付きデプロイメント ユニット。
トラフィック構成
エンドポイントへのトラフィックの何パーセントを各モデルに割り当てるかを指定します。複数のサービス モデルを持つエンドポイントではトラフィック構成が必要です。
次の例では、 multi-pt-modelという名前のエンドポイントが、エンドポイント トラフィックの 60% を取得するmeta_llama_v3_1_70b_instructのバージョン 2 をホストし、エンドポイント トラフィックの 40% を取得するmeta_llama_v3_1_8b_instructのバージョン 3 もホストしています。詳細については、 「モデルサービング エンドポイントに複数のモデルを提供する」を参照してください。
POST /api/2.0/serving-endpoints
{
"name":"multi-pt-model"
"config":
{
"served_entities":
[
{
"name":"meta_llama_v3_1_70b_instruct",
"entity_name":"system.ai.meta_llama_v3_1_70b_instruct",
"entity_version":"4",
"min_provisioned_throughput":0,
"max_provisioned_throughput":2400
},
{
"name":"meta_llama_v3_1_8b_instruct",
"entity_name":"system.ai.meta_llama_v3_1_8b_instruct",
"entity_version":"4",
"min_provisioned_throughput":0,
"max_provisioned_throughput":1240
}
],
"traffic_config":
{
"routes":
[
{
"served_model_name":"meta_llama_v3_1_8b_instruct",
"traffic_percentage":"60"
},
{
"served_model_name":"meta_llama_v3_1_70b_instruct",
"traffic_percentage":"40"
}
]
}
}
}