servindo modelo limites e regiões
Este artigo resume as limitações e a disponibilidade de regiões para Mosaic AI Model Serving e os tipos de endpoint compatíveis.
limites de recurso e carga útil
Mosaic AI Model Serving impõe default limites para garantir um desempenho confiável. Se o senhor tiver comentários sobre esses limites, entre em contato com a equipe Databricks account .
A tabela a seguir resume as limitações de recurso e carga útil para atender ao modelo de endpoint.
Recurso | Granularidade | Limite |
---|---|---|
Tamanho da carga útil | Por solicitação | 16 MB. Para modelos de base que atendem a endpoints, modelos externos ou agentesAI, o limite é de 4 MB. |
Consultas por segundo (QPS) | Por workspace | 200. Para maior QPS, ative a otimização da rota. |
Duração da execução do modelo | Por solicitação | 297 segundos |
Uso de memória do modelo de endpoint da CPU | Por endpoint | 4 GB |
provisionamento concurrency | Por workspace | 200 de simultaneidade. Pode ser aumentado entrando em contato com a equipe Databricks account . |
Latência de sobrecarga | Por solicitação | Menos de 50 milissegundos |
Init scripts | Os scripts de inicialização não são suportados. | |
Limites de taxa das APIs do Foundation Model | Por workspace | Consulte Foundation Model APIs rate limits and quotas para obter informações detalhadas sobre limites de pay-per-tokens e taxa de transferência de provisionamento. |
Limitações de rede e segurança
- Os endpoints do modelo servindo são protegidos pelo controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no site workspace.
- A servindo modelo não fornece patches de segurança para imagens de modelos existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão do modelo conterá os patches mais recentes. Entre em contato com a equipe do Databricks account para obter mais informações.
Limites das APIs do Foundation Model
Para obter informações detalhadas sobre o Foundation Model APIs, consulte:
- Limites de taxas e cotas : Limites e cotas de taxas das APIs do Foundation Model - Inclui limites de TPM, disponibilidade regional e restrições específicas do modelo
- conformidade e segurança : Modelo básico APIs compliance e segurança - Abrange os padrões compliance, o processamento de dados e os requisitos de segurança
Disponibilidade regional
Se o senhor precisar de um endpoint em uma região sem suporte, entre em contato com a equipe do Databricks account .
Se o seu workspace estiver implantado em uma região que ofereça suporte ao servindo modelo, mas for atendido por um plano de controle em uma região sem suporte, o workspace não oferece suporte ao servindo modelo. Se o senhor tentar usar o servindo modelo em tal workspace, verá uma mensagem de erro informando que o seu workspace não é compatível. Entre em contato com a equipe do Databricks account para obter mais informações.
Para obter mais informações sobre a disponibilidade regional de recurso, consulte servindo modelo recurso availability.
Para obter a disponibilidade da região do modelo de fundação hospedado no Databricks, consulte Modelos de fundação hospedados no Databricks.