servindo modelo limites e regiões
Este artigo resume as limitações e a disponibilidade de regiões para Mosaic AI Model Serving e os tipos de endpoint compatíveis.
limites de recurso e carga útil
Mosaic AI Model Serving impõe default limites para garantir um desempenho confiável. Se o senhor tiver comentários sobre esses limites, entre em contato com a equipe Databricks account .
A tabela a seguir resume as limitações de recurso e carga útil para atender ao modelo de endpoint.
Recurso | Granularidade | Limite |
---|---|---|
Tamanho da carga útil | Por solicitação | 16 MB. Para modelos de base que atendem a endpoints, modelos externos ou agentesAI, o limite é de 4 MB. |
Tamanho da solicitação/resposta | Por solicitação | Qualquer solicitação/resposta com mais de 1 MB não será registrada. |
Consultas por segundo (QPS) | Por workspace | 200, mas pode ser aumentado para 25.000 ou mais entrando em contato com a equipe Databricks account . |
Duração da execução do modelo | Por solicitação | 120 segundos |
Uso de memória do modelo de endpoint da CPU | Por endpoint | 4 GB |
Uso de memória do modelo de endpoint de GPU | Por endpoint | Maior ou igual à memória de GPU atribuída, depende do tamanho da carga de trabalho da GPU |
provisionamento concurrency | Por modelo e por workspace | 200 de simultaneidade. Pode ser aumentado entrando em contato com a equipe Databricks account . |
Latência de sobrecarga | Por solicitação | Menos de 50 milissegundos |
Init scripts | Os scripts de inicialização não são suportados. | |
Modelo da Fundação APIs (pay-per-tokens) limites de taxa | Por workspace | Se os limites a seguir forem insuficientes para seu caso de uso, o site Databricks recomenda o uso do provisionamento Taxa de transferência. - O Llama 3.3 70B Instruct tem um limite de 2 consultas por segundo e 1200 consultas por hora. - O Llama 3.1 405B Instruct tem um limite de 1 consulta por segundo e 1200 consultas por hora. - O modelo DBRX Instruct tem um limite de 1 consulta por segundo. - O Mixtral-8x 7B Instruct tem um limite de taxa de default de 2 consultas por segundo. - O GTE Large (En) tem um limite de taxa de 150 consultas por segundo - O BGE Large (En) tem um limite de taxa de 600 consultas por segundo. |
Modelo da Fundação APIs (provisionamento Taxa de transferência) limites de taxa | Por workspace | 200 |
Limitações de rede e segurança
- servindo modelo endpoint são protegidos por controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no workspace, como listas de permissões de IP e PrivateLink.
- Em default, o servindo modelo não oferece suporte a PrivateLink para endpoint externo. O suporte para essa funcionalidade é avaliado e implementado por região. Entre em contato com a equipe do Databricks account para obter mais informações.
- A servindo modelo não fornece patches de segurança para imagens de modelos existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão do modelo conterá os patches mais recentes. Entre em contato com a equipe do Databricks account para obter mais informações.
Limites das APIs do Foundation Model
Como parte do fornecimento das APIs do Modelo Básico, a Databricks pode processar seus dados fora da região e do provedor de nuvem onde seus dados foram originados.
Tanto para cargas de trabalho de pagamento por tokens quanto de provisionamento :
-
Somente os administradores do site workspace podem alterar as configurações de governança, como limites de taxa para o endpoint Foundation Model APIs. Para alterar os limites de taxa, use as seguintes etapas:
- Abra a Serving UI em seu site workspace para ver seu endpoint de serviço.
- No menu kebab do Foundation Model APIs endpoint que o senhor deseja editar, selecione view details (ver detalhes) .
- No menu kebab no canto superior direito da página de detalhes do endpoint, selecione Change rate limit (Alterar limite de taxa ).
-
Os modelos de incorporação GTE Large (En) não geram incorporações normalizadas.
Limites de pagamento por tokens
A seguir, os limites relevantes para as APIs cargas de trabalho pay-per-tokens do Foundation Model:
-
As cargas de trabalho pay-per-tokens são compatíveis com HIPAA.
- Para clientes com o perfil de segurança de conformidade ativado, as cargas de trabalho pay-per-tokens estão disponíveis desde que compliance standard HIPAA ou None seja selecionado. Outros padrões do site compliance não são compatíveis com cargas de trabalho pay-per-tokens.
-
Os modelos Meta Llama 3.3 70B Instruct e GTE Large (En) estão disponíveis em regiões com suporte para pay-per-tokens na UE e nos EUA.
-
Os seguintes modelos de pay-per-tokens são compatíveis apenas com o modelo Foundation APIs regiões dos EUA compatíveis com pay-per-tokens:
- Meta Llama 3.1 405B Instruct
- DBRX Instruct
- Instrução Mixtral-8x7B
- BGE Grande (En)
-
Se o seu workspace estiver em uma região servindo modelo, mas não em uma região dos EUA ou da UE, o seu workspace deverá estar habilitado para o processamento de dados entre regiões geográficas. Quando ativada, sua carga de trabalho pay-per-tokens é roteada para os EUA. Databricks Geo. Para ver quais regiões geográficas processam cargas de trabalho pay-per-tokens, consulte Databricks Designated service.
provisionamento Taxa de transferência limits
Os limites a seguir são relevantes para as cargas de trabalho do modelo da Fundação APIs provisionamento Taxa de transferência :
- O provisionamento Taxa de transferência é compatível com o perfil HIPAA compliance e é recomendado para cargas de trabalho que exigem certificações compliance.
- Para usar a arquitetura do modelo DBRX para uma carga de trabalho de taxa de transferência de provisionamento , o servidor endpoint deve estar em
us-east-1
ouus-west-2
. - A tabela a seguir mostra a disponibilidade regional dos modelos Meta Llama 3.1, 3.2 e 3.3 compatíveis. Consulte Implantação de modelos de fundação ajustados para obter orientação sobre como implantar modelos ajustados.
- Para implantar um modelo Meta Llama de
system.ai
em Unity Catalog, o senhor deve escolher a versão do Instruct aplicável. As versões básicas dos modelos Meta Llama não são compatíveis com a implantação a partir do Unity Catalog. Consulte os modelos de fundação implantada [Recomendados] em Unity Catalog.
Variante do modelo Meta Llama | Regiões |
---|---|
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
|
Disponibilidade regional
Se o senhor precisar de um endpoint em uma região sem suporte, entre em contato com a equipe do Databricks account .
Se o seu workspace estiver implantado em uma região que ofereça suporte ao servindo modelo, mas for atendido por um plano de controle em uma região sem suporte, o workspace não oferece suporte ao servindo modelo. Se o senhor tentar usar o servindo modelo em tal workspace, verá uma mensagem de erro informando que o seu workspace não é compatível. Entre em contato com a equipe do Databricks account para obter mais informações.
Para obter mais informações sobre a disponibilidade regional de recurso, consulte servindo modelo recurso availability.