Mosaic AI Model Serving概念

このページでは、モデルのデプロイメントのために Mosaic AI Model Serving で使用される主要な概念の定義を示します。

終点

推論用に 1 つ以上の提供モデルを公開する REST API。

ルート最適化エンドポイント

推論中にユーザーとモデル間のより高速で直接的な通信を実現する、改善されたネットワークパスを可能にするエンドポイントプロパティ。詳細については、「サービスエンドポイントでのルートの最適化」を参照してください。

プロビジョニングされた同時実行

エンドポイントが処理できる並列リクエストの最大数を指定するエンドポイントプロパティ。次の式を使用して必要な同時実行性を推定します: provisioned concurrency = queries per second (QPS) \* model execution time (s) 。

ゼロにスケール

エンドポイントが使用されていないときにリソース消費を自動的にゼロにするエンドポイントプロパティ。テストおよび開発の場合は、ゼロにスケールすることをお勧めします。ただし、ゼロにスケールするとレイテンシが大きくなり、容量が保証されないため、本番運用エンドポイントではゼロにスケールすることは推奨されません。

サービス対象エンティティ

ルーティングされたトラフィックを受信できるコンピュート構成を持つ特定のモデルを表すエンドポイント内の名前付きデプロイメントユニット。

トラフィック構成

エンドポイントへのトラフィックの何パーセントを各モデルに割り当てるかを指定します。複数のサービスモデルを持つエンドポイントではトラフィック構成が必要です。

次の例では、 multi-pt-modelという名前のエンドポイントが、エンドポイントトラフィックの 60% を取得するmeta_llama_v3_1_70b_instructのバージョン 2 をホストし、エンドポイントトラフィックの 40% を取得するmeta_llama_v3_1_8b_instructのバージョン 3 もホストしています。詳細については、「モデルサービングエンドポイントに複数のモデルを提供する」を参照してください。

Bash

POST /api/2.0/serving-endpoints
{
   "name":"multi-pt-model"
   "config":
   {
      "served_entities":
      [
         {
            "name":"meta_llama_v3_1_70b_instruct",
            "entity_name":"system.ai.meta_llama_v3_1_70b_instruct",
            "entity_version":"4",
            "min_provisioned_throughput":0,
            "max_provisioned_throughput":2400
         },
         {
            "name":"meta_llama_v3_1_8b_instruct",
            "entity_name":"system.ai.meta_llama_v3_1_8b_instruct",
            "entity_version":"4",
            "min_provisioned_throughput":0,
            "max_provisioned_throughput":1240
         }
      ],
      "traffic_config":
      {
         "routes":
         [
            {
               "served_model_name":"meta_llama_v3_1_8b_instruct",
               "traffic_percentage":"60"
            },
            {
               "served_model_name":"meta_llama_v3_1_70b_instruct",
               "traffic_percentage":"40"
            }
         ]
      }
   }
}

終点​

ルート最適化エンドポイント​

プロビジョニングされた同時実行​

ゼロにスケール​

サービス対象エンティティ​

トラフィック構成​

終点

ルート最適化エンドポイント

プロビジョニングされた同時実行

ゼロにスケール

サービス対象エンティティ

トラフィック構成