servindo modelo limites e regiões

Este artigo resume as limitações e a disponibilidade de regiões para Mosaic AI Model Serving e os tipos de endpoint compatíveis.

limites de recurso e carga útil

Mosaic AI Model Serving impõe default limites para garantir um desempenho confiável. Se o senhor tiver comentários sobre esses limites, entre em contato com a equipe Databricks account .

A tabela a seguir resume as limitações de recurso e carga útil para atender ao modelo de endpoint.

Recurso	Granularidade	Limite
Tamanho da carga útil	Por solicitação	16 MB. Para modelos de base que atendem a endpoints, modelos externos ou agentesAI, o limite é de 4 MB.
Tamanho da solicitação/resposta	Por solicitação	Qualquer solicitação/resposta com mais de 1 MB não será registrada.
Consultas por segundo (QPS)	Por workspace	200. Para maior QPS, ative a otimização da rota.
Duração da execução do modelo	Por solicitação	297 segundos
Uso de memória do modelo de endpoint da CPU	Por endpoint	4 GB
Uso de memória do modelo de endpoint de GPU	Por endpoint	Maior ou igual à memória de GPU atribuída, depende do tamanho da carga de trabalho da GPU
provisionamento concurrency	Por modelo e por workspace	200 de simultaneidade. Pode ser aumentado entrando em contato com a equipe Databricks account .
Latência de sobrecarga	Por solicitação	Menos de 50 milissegundos
Init scripts		Os scripts de inicialização não são suportados.
Limites de taxa das APIs do Foundation Model	Por workspace	Consulte Foundation Model APIs rate limits and quotas para obter informações detalhadas sobre limites de pay-per-tokens e taxa de transferência de provisionamento.

Limitações de rede e segurança

servindo modelo endpoint são protegidos por controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no workspace, como listas de permissões de IP e PrivateLink.
Em default, o servindo modelo não oferece suporte a PrivateLink para endpoint externo. O suporte para essa funcionalidade é avaliado e implementado por região. Entre em contato com a equipe do Databricks account para obter mais informações.
A servindo modelo não fornece patches de segurança para imagens de modelos existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão do modelo conterá os patches mais recentes. Entre em contato com a equipe do Databricks account para obter mais informações.
O senhor pode restringir o acesso de saída à rede a partir do endpoint do modelo de serviço configurando políticas de rede. Consulte gerenciar políticas de rede para serverless controle de saída.

padrões de perfil de segurança de conformidade: Cargas de trabalho de CPU e GPU

A tabela a seguir lista a disponibilidade da região e o perfil de segurança suportado compliance compliance padrões para servir o modelo em cargas de trabalho de CPU e GPU, incluindo modelos externos.

nota

Esses padrões do site compliance exigem que os contêineres servidos sejam integrados nos 30 dias mais recentes. A Databricks reconstrói automaticamente contêineres desatualizados em seu nome. No entanto, se esse trabalho automatizado falhar, uma mensagem do evento log como a seguinte será exibida e fornecerá orientações sobre como garantir que o endpoint permaneça dentro dos requisitos do compliance:

"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."

Região	Localização	HIPAA	PCI-DSS	FedRAMP Moderate	IRAP	Meio CCCS (Protegido B)	Cyber Essentials Plus do Reino Unido
`ap-northeast-1`	Ásia-Pacífico (Tóquio)	✓	✓
`ap-northeast-2`	Ásia-Pacífico (Seul)	✓	✓
`ap-south-1`	Ásia-Pacífico (Mumbai)	✓	✓
`ap-southeast-1`	Ásia-Pacífico (Singapura)	✓	✓
`ap-southeast-2`	Ásia-Pacífico (Sydney)	✓	✓		✓
`ca-central-1`	Canadá (Central)	✓	✓			✓
`eu-central-1`	UE (Frankfurt)	✓	✓
`eu-west-1`	UE (Irlanda)	✓	✓
`eu-west-2`	UE (Londres)	✓	✓				✓
`eu-west-3`	UE (Paris)
`sa-east-1`	América do Sul (São Paulo)	✓	✓
`us-east-1`	Leste dos EUA (Virgínia do Norte)	✓	✓	✓
`us-east-2`	Leste dos EUA (Ohio)	✓	✓	✓
`us-gov-west-1`	Governador Oeste dos EUA (Pendleton)
`us-west-1`	Oeste dos EUA (Norte da Califórnia)
`us-west-2`	Oeste dos EUA (Oregon)	✓	✓	✓

padrões de perfil de segurança de conformidade: Modelo básico APIs cargas de trabalho

A tabela lista os padrões de perfil de segurança compliance suportados compliance para as seguintes cargas de trabalho do Foundation Model APIs:

Throughput provisionado
Pagamento por token
inferência de lotes usando AI Functions e Databricks- modelos hospedados

nota

Região	Localização	HIPAA	PCI-DSS	FedRAMP Moderate	IRAP	Meio CCCS (Protegido B)	Cyber Essentials Plus do Reino Unido
`ap-northeast-1`	Ásia-Pacífico (Tóquio)	✓	✓
`ap-northeast-2`	Ásia-Pacífico (Seul)	✓	✓
`ap-south-1`	Ásia-Pacífico (Mumbai)	✓	✓
`ap-southeast-1`	Ásia-Pacífico (Singapura)	✓	✓
`ap-southeast-2`	Ásia-Pacífico (Sydney)	✓	✓		✓
`ca-central-1`	Canadá (Central)	✓	✓			✓
`eu-central-1`	UE (Frankfurt)	✓	✓
`eu-west-1`	UE (Irlanda)	✓	✓
`eu-west-2`	UE (Londres)	✓	✓				✓ *
`eu-west-3`	UE (Paris)
`sa-east-1`	América do Sul (São Paulo)	✓	✓
`us-east-1`	Leste dos EUA (Virgínia do Norte)	✓	✓	✓
`us-east-2`	Leste dos EUA (Ohio)	✓	✓	✓
`us-gov-west-1`	Governador Oeste dos EUA (Pendleton)
`us-west-1`	Oeste dos EUA (Norte da Califórnia)
`us-west-2`	Oeste dos EUA (Oregon)	✓	✓	✓

* Alguns modelos exigem roteamento entre regiões geográficas para provisionamento de taxas de transferência e, portanto, não estão em conformidade com o Cyber Essentials Plus do Reino Unido. Entre em contato com a equipe do Databricks account para obter mais informações.

Limites das APIs do Foundation Model

Para obter informações detalhadas sobre o Foundation Model APIs, consulte:

Limites de taxas e cotas : Limites e cotas de taxas das APIs do Foundation Model - Inclui limites de TPM, disponibilidade regional e restrições específicas do modelo
conformidade e segurança : Modelo básico APIs compliance e segurança - Abrange os padrões compliance, o processamento de dados e os requisitos de segurança

Disponibilidade regional

nota

Se o senhor precisar de um endpoint em uma região sem suporte, entre em contato com a equipe do Databricks account .

Se o seu workspace estiver implantado em uma região que ofereça suporte ao servindo modelo, mas for atendido por um plano de controle em uma região sem suporte, o workspace não oferece suporte ao servindo modelo. Se o senhor tentar usar o servindo modelo em tal workspace, verá uma mensagem de erro informando que o seu workspace não é compatível. Entre em contato com a equipe do Databricks account para obter mais informações.

Consulte a disponibilidade do modelo de recurso servindo para obter mais informações sobre a disponibilidade regional de cada modelo de recurso servindo.

Para obter a disponibilidade da região do modelo de fundação hospedado no Databricks, consulte Modelos de fundação hospedados no Databricks.

limites de recurso e carga útil​

Limitações de rede e segurança​

padrões de perfil de segurança de conformidade: Cargas de trabalho de CPU e GPU​

padrões de perfil de segurança de conformidade: Modelo básico APIs cargas de trabalho​

Limites das APIs do Foundation Model​

Disponibilidade regional​

limites de recurso e carga útil

Limitações de rede e segurança

padrões de perfil de segurança de conformidade: Cargas de trabalho de CPU e GPU

padrões de perfil de segurança de conformidade: Modelo básico APIs cargas de trabalho

Limites das APIs do Foundation Model

Disponibilidade regional