ConceitosMosaic AI Model Serving

Esta página fornece definições de conceitos- key usados no Mosaic AI Model Serving para implantações de modelos.

ponto final

API REST que expõe um ou mais modelos disponíveis para inferência.

endpointotimizado para roteamento

Propriedade do ponto final que permite um caminho de rede aprimorado com comunicação mais rápida e direta entre o usuário e o modelo durante a inferência. Para obter mais informações, consulte Otimização de rotas no endpoint de serviço.

provisionamento concorrência

Propriedade do endpoint que especifica o número máximo de solicitações paralelas que um endpoint pode processar. Estime a concorrência necessária usando a fórmula: provisioned concurrency = queries per second (QPS) \* model execution time (s).

escalar para zero

Propriedade do endpoint que reduz automaticamente o consumo de recursos a zero quando endpoint não está em uso. Para testes e desenvolvimento, recomenda-se usar escala zero. No entanto, a escalabilidade para zero não é recomendada para endpoints de produção, pois a latência é maior e a capacidade não é garantida quando a escala é reduzida a zero.

Entidade atendida

Unidade de implantação nomeada dentro de um endpoint que representa um modelo específico com sua configuração compute , capaz de receber tráfego roteado.

Configuração de tráfego

Especificação da porcentagem de tráfego para um endpoint que deve ser direcionada para cada modelo. É necessária a configuração de tráfego para endpoints com mais de um modelo atendido.

O exemplo a seguir mostra um endpoint chamado multi-pt-model que hospeda a versão 2 de meta_llama_v3_1_70b_instruct , que recebe 60% do tráfego do endpoint, e também hospeda a versão 3 de meta_llama_v3_1_8b_instruct , que recebe 40% do tráfego do endpoint. Para obter mais informações, consulte Servir vários modelos para um endpointde modelo funcional.

Bash

POST /api/2.0/serving-endpoints
{
   "name":"multi-pt-model"
   "config":
   {
      "served_entities":
      [
         {
            "name":"meta_llama_v3_1_70b_instruct",
            "entity_name":"system.ai.meta_llama_v3_1_70b_instruct",
            "entity_version":"4",
            "min_provisioned_throughput":0,
            "max_provisioned_throughput":2400
         },
         {
            "name":"meta_llama_v3_1_8b_instruct",
            "entity_name":"system.ai.meta_llama_v3_1_8b_instruct",
            "entity_version":"4",
            "min_provisioned_throughput":0,
            "max_provisioned_throughput":1240
         }
      ],
      "traffic_config":
      {
         "routes":
         [
            {
               "served_model_name":"meta_llama_v3_1_8b_instruct",
               "traffic_percentage":"60"
            },
            {
               "served_model_name":"meta_llama_v3_1_70b_instruct",
               "traffic_percentage":"40"
            }
         ]
      }
   }
}

ponto final​

endpointotimizado para roteamento​

provisionamento concorrência​

escalar para zero​

Entidade atendida​

Configuração de tráfego​