servindo modelo limites e regiões

Este artigo resume as limitações e a disponibilidade de regiões para Mosaic AI Model Serving e os tipos de endpoint compatíveis.

limites de recurso e carga útil

Mosaic AI Model Serving impõe default limites para garantir um desempenho confiável. Se o senhor tiver comentários sobre esses limites, entre em contato com a equipe Databricks account .

A tabela a seguir resume as limitações de recurso e carga útil para atender ao modelo de endpoint.

Recurso	Granularidade	Limite
Tamanho da carga útil	Por solicitação	16 MB. Para modelos de base que atendem a endpoints, modelos externos ou agentesAI, o limite é de 4 MB.
Tamanho da solicitação/resposta	Por solicitação	Qualquer solicitação/resposta com mais de 1 MB não será registrada.
Consultas por segundo (QPS)	Por workspace	200, mas pode ser aumentado para 25.000 ou mais entrando em contato com a equipe Databricks account .
Duração da execução do modelo	Por solicitação	120 segundos
Uso de memória do modelo de endpoint da CPU	Por endpoint	4 GB
Uso de memória do modelo de endpoint de GPU	Por endpoint	Maior ou igual à memória de GPU atribuída, depende do tamanho da carga de trabalho da GPU
provisionamento concurrency	Por modelo e por workspace	200 de simultaneidade. Pode ser aumentado entrando em contato com a equipe Databricks account .
Latência de sobrecarga	Por solicitação	Menos de 50 milissegundos
Init scripts		Os scripts de inicialização não são suportados.
Modelo da Fundação APIs (pay-per-tokens) limites de taxa	Por workspace	Se os limites a seguir forem insuficientes para seu caso de uso, o site Databricks recomenda o uso do provisionamento Taxa de transferência. - Claude Sonnet 4 tem um limite de 2 consultas por segundo. - Claude Opus 4 tem um limite de 2 consultas por segundo. - O Llama 4 Maverick tem um limite de 4 consultas por segundo e 2400 consultas por hora. - Claude 3.7 Sonnet tem um limite de 4 consultas por segundo e 2400 consultas por hora. - O Llama 3.3 70B Instruct tem um limite de 4 consultas por segundo e 2400 consultas por hora. - O Llama 3.1 405B Instruct tem um limite de 1 consulta por segundo e 1200 consultas por hora. - O Llama 3.1 8B Instruct tem um limite de 2 consultas por segundo. - O GTE Large (En) tem um limite de taxa de 150 consultas por segundo - O BGE Large (En) tem um limite de taxa de 600 consultas por segundo.
Modelo da Fundação APIs (provisionamento Taxa de transferência) limites de taxa	Por workspace	200 consultas por segundo.

Limitações de rede e segurança

servindo modelo endpoint são protegidos por controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no workspace, como listas de permissões de IP e PrivateLink.
Em default, o servindo modelo não oferece suporte a PrivateLink para endpoint externo. O suporte para essa funcionalidade é avaliado e implementado por região. Entre em contato com a equipe do Databricks account para obter mais informações.
A servindo modelo não fornece patches de segurança para imagens de modelos existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão do modelo conterá os patches mais recentes. Entre em contato com a equipe do Databricks account para obter mais informações.
O senhor pode restringir o acesso de saída à rede a partir do endpoint do modelo de serviço configurando políticas de rede. Consulte gerenciar políticas de rede para serverless controle de saída.

padrões de perfil de segurança de conformidade: Cargas de trabalho de CPU e GPU

A tabela a seguir lista a disponibilidade da região e o perfil de segurança compliance suportado compliance padrões para servir o modelo em cargas de trabalho de CPU e GPU.

nota

Esses padrões do site compliance exigem que os contêineres servidos sejam integrados nos 30 dias mais recentes. A Databricks reconstrói automaticamente contêineres desatualizados em seu nome. No entanto, se esse trabalho automatizado falhar, uma mensagem do evento log como a seguinte será exibida e fornecerá orientações sobre como garantir que o endpoint permaneça dentro dos requisitos do compliance:

"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."

Região	Localização	HIPAA	PCI-DSS	Cyber Essentials Plus do Reino Unido
`ap-northeast-1`	Ásia-Pacífico (Tóquio)	✓	✓
`ap-northeast-2`	Ásia-Pacífico (Seul)	✓	✓
`ap-south-1`	Ásia-Pacífico (Mumbai)	✓	✓
`ap-southeast-1`	Ásia-Pacífico (Singapura)	✓	✓
`ap-southeast-2`	Ásia-Pacífico (Sydney)	✓	✓
`ca-central-1`	Canadá (Central)	✓	✓
`eu-central-1`	UE (Frankfurt)	✓	✓
`eu-west-1`	UE (Irlanda)	✓	✓
`eu-west-2`	UE (Londres)	✓	✓	✓
`eu-west-3`	UE (Paris)
`sa-east-1`	América do Sul (São Paulo)	✓	✓
`us-east-1`	Leste dos EUA (Virgínia do Norte)	✓	✓
`us-east-2`	Leste dos EUA (Ohio)	✓	✓
`us-gov-west-1`	Governador Oeste dos EUA (Pendleton)
`us-west-1`	Oeste dos EUA (Norte da Califórnia)
`us-west-2`	Oeste dos EUA (Oregon)	✓	✓

padrões de perfil de segurança de conformidade: provisionamento Taxa de transferência

A tabela a seguir lista os padrões de perfil de segurança compliance suportados compliance para cargas de trabalho do Foundation Model APIs provisionamento Taxa de transferência.

nota

Região	Localização	HIPAA	PCI-DSS	Cyber Essentials Plus do Reino Unido
`ap-northeast-1`	Ásia-Pacífico (Tóquio)	✓	✓
`ap-northeast-2`	Ásia-Pacífico (Seul)	✓	✓
`ap-south-1`	Ásia-Pacífico (Mumbai)	✓	✓
`ap-southeast-1`	Ásia-Pacífico (Singapura)	✓	✓
`ap-southeast-2`	Ásia-Pacífico (Sydney)	✓	✓
`ca-central-1`	Canadá (Central)	✓	✓
`eu-central-1`	UE (Frankfurt)	✓	✓
`eu-west-1`	UE (Irlanda)	✓	✓
`eu-west-2`	UE (Londres)	✓	✓	✓ *
`eu-west-3`	UE (Paris)
`sa-east-1`	América do Sul (São Paulo)	✓	✓
`us-east-1`	Leste dos EUA (Virgínia do Norte)	✓	✓
`us-east-2`	Leste dos EUA (Ohio)	✓	✓
`us-gov-west-1`	Governador Oeste dos EUA (Pendleton)
`us-west-1`	Oeste dos EUA (Norte da Califórnia)
`us-west-2`	Oeste dos EUA (Oregon)	✓	✓

* Alguns modelos exigem roteamento entre regiões geográficas para provisionamento de taxas de transferência e, portanto, não estão em conformidade com o Cyber Essentials Plus do Reino Unido. Entre em contato com a equipe do Databricks account para obter mais informações.

Limites das APIs do Foundation Model

nota

Como parte do fornecimento das APIs do Modelo Básico, a Databricks pode processar seus dados fora da região e do provedor de nuvem onde seus dados foram originados.

Tanto para cargas de trabalho de pagamento por tokens quanto de provisionamento :

Somente os administradores do site workspace podem alterar as configurações de governança, como limites de taxa para o endpoint Foundation Model APIs. Para alterar os limites de taxa, use as seguintes etapas:
1. Abra a Serving UI em seu site workspace para ver seu endpoint de serviço.
2. No menu kebab do Foundation Model APIs endpoint que o senhor deseja editar, selecione view details (ver detalhes) .
3. No menu kebab no canto superior direito da página de detalhes do endpoint, selecione Change rate limit (Alterar limite de taxa ).
Os modelos de incorporação GTE Large (En) não geram incorporações normalizadas.

Limites de pagamento por tokens

A seguir, os limites relevantes para as APIs cargas de trabalho pay-per-tokens do Foundation Model:

As cargas de trabalho pay-per-tokens são compatíveis com HIPAA.
- Para clientes com o perfil de segurança de conformidade ativado, as cargas de trabalho pay-per-tokens estão disponíveis desde que compliance standard HIPAA ou None seja selecionado. Outros padrões do site compliance não são compatíveis com cargas de trabalho pay-per-tokens.
Os seguintes modelos de pay-per-tokens são compatíveis apenas com o modelo Foundation APIs regiões dos EUA compatíveis com pay-per-tokens:
- Anthropic Claude Soneto 4
- Anthropic Claude Opus 4
- Meta Llama 3.1 405B Instruct
- BGE Grande (En)
Se o seu workspace estiver em uma região servindo modelo, mas não em uma região dos EUA ou da UE, o seu workspace deverá estar habilitado para o processamento de dados entre regiões geográficas. Consulte Databricks Serviço designado para áreas geográficas que processam cargas de trabalho pay-per-tokens e para onde as cargas de trabalho são encaminhadas quando o processamento de dados entre geo está habilitado.

provisionamento Taxa de transferência limits

Os limites a seguir são relevantes para as cargas de trabalho do modelo da Fundação APIs provisionamento Taxa de transferência :

O provisionamento Taxa de transferência é compatível com o perfil HIPAA compliance e é recomendado para cargas de trabalho que exigem certificações compliance.
Para usar a arquitetura do modelo DBRX para uma carga de trabalho de taxa de transferência de provisionamento , o servidor endpoint deve estar em us-east-1 ou us-west-2.
Para cargas de trabalho de provisionamento Taxa de transferência que usam Llama 4 Maverick :
- O suporte a esse modelo em cargas de trabalho de Taxa de transferência de provisionamento está em Public Preview.
- não há suporte para autoescala.
- Não há suporte para painéis de métricas.
- A divisão de tráfego não é suportada em um endpoint que atende ao Llama 4 Maverick. O senhor não pode atender a vários modelos em um endpoint que atende ao Llama 4 Maverick.
Para implantar um modelo Meta Llama de system.ai em Unity Catalog, o senhor deve escolher a versão do Instruct aplicável. As versões básicas dos modelos Meta Llama não são compatíveis com a implantação a partir do Unity Catalog. Consulte os modelos de fundação implantada [Recomendados] em Unity Catalog.

Disponibilidade regional

nota

Se o senhor precisar de um endpoint em uma região sem suporte, entre em contato com a equipe do Databricks account .

Se o seu workspace estiver implantado em uma região que ofereça suporte ao servindo modelo, mas for atendido por um plano de controle em uma região sem suporte, o workspace não oferece suporte ao servindo modelo. Se o senhor tentar usar o servindo modelo em tal workspace, verá uma mensagem de erro informando que o seu workspace não é compatível. Entre em contato com a equipe do Databricks account para obter mais informações.

Consulte a disponibilidade do modelo de recurso servindo para obter mais informações sobre a disponibilidade regional de cada modelo de recurso servindo.

Para obter a disponibilidade da região do modelo de fundação hospedado no Databricks, consulte Modelos de fundação hospedados no Databricks.

limites de recurso e carga útil​

Limitações de rede e segurança​

padrões de perfil de segurança de conformidade: Cargas de trabalho de CPU e GPU​

padrões de perfil de segurança de conformidade: provisionamento Taxa de transferência​

Limites das APIs do Foundation Model​

Limites de pagamento por tokens​

provisionamento Taxa de transferência limits​

Disponibilidade regional​

limites de recurso e carga útil

Limitações de rede e segurança

padrões de perfil de segurança de conformidade: Cargas de trabalho de CPU e GPU

padrões de perfil de segurança de conformidade: provisionamento Taxa de transferência

Limites das APIs do Foundation Model

Limites de pagamento por tokens

provisionamento Taxa de transferência limits

Disponibilidade regional