Pular para o conteúdo principal

servindo modelo limites e regiões

Este artigo resume as limitações e a disponibilidade de regiões para Mosaic AI Model Serving e os tipos de endpoint compatíveis.

limites de recurso e carga útil

Mosaic AI Model Serving impõe default limites para garantir um desempenho confiável. Se o senhor tiver comentários sobre esses limites, entre em contato com a equipe Databricks account .

A tabela a seguir resume as limitações de recurso e carga útil para atender ao modelo de endpoint.

Recurso

Granularidade

Limite

Tamanho da carga útil

Por solicitação

16 MB. Para modelos de base que atendem a endpoints, modelos externos ou agentesAI, o limite é de 4 MB.

Consultas por segundo (QPS)

Por workspace

200. Para maior QPS, ative a otimização da rota.

Duração da execução do modelo

Por solicitação

297 segundos

Uso de memória do modelo de endpoint da CPU

Por endpoint

4 GB

provisionamento concurrency

Por workspace

200 de simultaneidade. Pode ser aumentado entrando em contato com a equipe Databricks account .

Latência de sobrecarga

Por solicitação

Menos de 50 milissegundos

Init scripts

Os scripts de inicialização não são suportados.

Limites de taxa das APIs do Foundation Model

Por workspace

Consulte Foundation Model APIs rate limits and quotas para obter informações detalhadas sobre limites de pay-per-tokens e taxa de transferência de provisionamento.

Limitações de rede e segurança

  • Os endpoints do modelo servindo são protegidos pelo controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no site workspace.
  • A servindo modelo não fornece patches de segurança para imagens de modelos existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão do modelo conterá os patches mais recentes. Entre em contato com a equipe do Databricks account para obter mais informações.

Limites das APIs do Foundation Model

Para obter informações detalhadas sobre o Foundation Model APIs, consulte:

Disponibilidade regional

nota

Se o senhor precisar de um endpoint em uma região sem suporte, entre em contato com a equipe do Databricks account .

Se o seu workspace estiver implantado em uma região que ofereça suporte ao servindo modelo, mas for atendido por um plano de controle em uma região sem suporte, o workspace não oferece suporte ao servindo modelo. Se o senhor tentar usar o servindo modelo em tal workspace, verá uma mensagem de erro informando que o seu workspace não é compatível. Entre em contato com a equipe do Databricks account para obter mais informações.

Para obter mais informações sobre a disponibilidade regional de recurso, consulte servindo modelo recurso availability.

Para obter a disponibilidade da região do modelo de fundação hospedado no Databricks, consulte Modelos de fundação hospedados no Databricks.