servindo modelo limites e regiões
Este artigo resume as limitações e a disponibilidade regional do modelo de serviço Databricks , bem como os tipos endpoint suportados.
limites de recurso e carga útil
O modelo privado impõe limites default para garantir um desempenho confiável. Se tiver algum comentário sobre esses limites, entre em contato com a equipe da sua account Databricks .
Os limites desta seção aplicam-se apenas a modelos personalizados e endpoints de agentesAI . Para APIs do Foundation Model e limites de recursos e payloads de modelos externos, consulte Limites de taxa e cotas APIs do Foundation Model.
Modelos personalizados e agentes AI
Recurso | Granularidade | Limite |
|---|---|---|
Endpoints | Por workspace | 1000. Entre em contato com a equipe da sua account Databricks para aumentar as chances de sucesso. |
Consultas por segundo (QPS) | Por endpoint | 300.000 usando otimização de rotas. Se 1024 conexões simultâneas não forem suficientes, entre em contato com a equipe da sua account Databricks para aumentar esse valor. |
Consultas por segundo (QPS) | Por workspace | 300.000 usando otimização de rotas. 200 para rotas não otimizadas, recomendado apenas para casos de uso de desenvolvimento de pequena escala. |
provisionamento concurrency | Por modelo | 1024 com opção personalizada e otimização de rota. Entre em contato com a equipe da sua account Databricks para aumentar as chances de sucesso. |
provisionamento concurrency | Por workspace | 4096. Entre em contato com a equipe da sua account Databricks para aumentar as chances de sucesso. |
Criar/atualizar operações | Por workspace | 50 em 5 minutos. |
Tamanho da carga útil | Por solicitação | 16 MB. Para o endpoint do agenteAI , o limite é de 4 MB. |
Tamanho da solicitação/resposta | Por solicitação | Qualquer solicitação/resposta com mais de 1 MB não será registrada. |
Duração da execução do modelo | Por solicitação | 297 segundos |
Uso de memória do modelo de endpoint da CPU | Por endpoint | 4 GB |
Uso de memória do modelo de endpoint de GPU | Por endpoint | Depende do tipo de GPU. |
Variáveis de ambiente | Modelo por porção | 30. Entre em contato com a equipe da sua account Databricks para aumentar as chances de sucesso. |
Latência de sobrecarga | Por solicitação | Menos de 20 milissegundos com otimização de rota. |
:::
Limitações de rede e segurança
- servindo modelo endpoint são protegidos por controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no workspace, como listas de permissões de IP e PrivateLink.
- Em default, o servindo modelo não oferece suporte a PrivateLink para endpoint externo. O suporte para essa funcionalidade é avaliado e implementado por região. Entre em contato com a equipe do Databricks account para obter mais informações.
- A servindo modelo não fornece patches de segurança para imagens de modelos existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão do modelo conterá os patches mais recentes. Entre em contato com a equipe do Databricks account para obter mais informações.
- O senhor pode restringir o acesso de saída à rede a partir do endpoint do modelo de serviço configurando políticas de rede. Consulte gerenciar políticas de rede para serverless controle de saída.
padrões de perfil de segurança de conformidade: Cargas de trabalho de CPU e GPU
A tabela a seguir lista a disponibilidade da região e o perfil de segurança suportado compliance compliance padrões para servir o modelo em cargas de trabalho de CPU e GPU, incluindo modelos externos.
Esses padrões do site compliance exigem que os contêineres servidos sejam integrados nos 30 dias mais recentes. A Databricks reconstrói automaticamente contêineres desatualizados em seu nome. No entanto, se esse trabalho automatizado falhar, uma mensagem do evento log como a seguinte será exibida e fornecerá orientações sobre como garantir que o endpoint permaneça dentro dos requisitos do compliance:
"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."
Região | Localização | HIPAA | PCI-DSS | FedRAMP Moderate | IRAP | Meio CCCS (Protegido B) | Cyber Essentials Plus do Reino Unido |
|---|---|---|---|---|---|---|---|
| Ásia-Pacífico (Tóquio) | ✓ | ✓ | ||||
| Ásia-Pacífico (Seul) | ✓ | ✓ | ||||
| Ásia-Pacífico (Mumbai) | ✓ | ✓ | ||||
| Ásia-Pacífico (Singapura) | ✓ | ✓ | ||||
| Ásia-Pacífico (Sydney) | ✓ | ✓ | ✓ | |||
| Canadá (Central) | ✓ | ✓ | ✓ | |||
| UE (Frankfurt) | ✓ | ✓ | ||||
| UE (Irlanda) | ✓ | ✓ | ||||
| UE (Londres) | ✓ | ✓ | ✓ | |||
| UE (Paris) | ||||||
| América do Sul (São Paulo) | ✓ | ✓ | ||||
| Leste dos EUA (Virgínia do Norte) | ✓ | ✓ | ✓ | |||
| Leste dos EUA (Ohio) | ✓ | ✓ | ✓ | |||
| Governador Oeste dos EUA (Pendleton) | ||||||
| Oeste dos EUA (Norte da Califórnia) | ||||||
| Oeste dos EUA (Oregon) | ✓ | ✓ | ✓ |
padrões de perfil de segurança de conformidade: Modelo básico APIs cargas de trabalho
A tabela lista os padrões de perfil de segurança compliance suportados compliance para as seguintes cargas de trabalho do Foundation Model APIs:
- Throughput provisionado
- Pagamento por token
- inferência de lotes usando AI Functions e Databricks- modelos hospedados
Esses padrões do site compliance exigem que os contêineres servidos sejam integrados nos 30 dias mais recentes. A Databricks reconstrói automaticamente contêineres desatualizados em seu nome. No entanto, se esse trabalho automatizado falhar, uma mensagem do evento log como a seguinte será exibida e fornecerá orientações sobre como garantir que o endpoint permaneça dentro dos requisitos do compliance:
"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."
Região | Localização | HIPAA | PCI-DSS | FedRAMP Moderate | IRAP | Meio CCCS (Protegido B) | Cyber Essentials Plus do Reino Unido |
|---|---|---|---|---|---|---|---|
| Ásia-Pacífico (Tóquio) | ✓ | ✓ | ||||
| Ásia-Pacífico (Seul) | ✓ | ✓ | ||||
| Ásia-Pacífico (Mumbai) | ✓ | ✓ | ||||
| Ásia-Pacífico (Singapura) | ✓ | ✓ | ||||
| Ásia-Pacífico (Sydney) | ✓ | ✓ | ✓ | |||
| Canadá (Central) | ✓ | ✓ | ✓ | |||
| UE (Frankfurt) | ✓ | ✓ | ||||
| UE (Irlanda) | ✓ | ✓ | ||||
| UE (Londres) | ✓ | ✓ | ✓ * | |||
| UE (Paris) | ||||||
| América do Sul (São Paulo) | ✓ | ✓ | ||||
| Leste dos EUA (Virgínia do Norte) | ✓ | ✓ | ✓ | |||
| Leste dos EUA (Ohio) | ✓ | ✓ | ✓ | |||
| Governador Oeste dos EUA (Pendleton) | ||||||
| Oeste dos EUA (Norte da Califórnia) | ||||||
| Oeste dos EUA (Oregon) | ✓ | ✓ | ✓ |
* Alguns modelos exigem roteamento entre regiões geográficas para provisionamento de taxas de transferência e, portanto, não estão em conformidade com o Cyber Essentials Plus do Reino Unido. Entre em contato com a equipe do Databricks account para obter mais informações.
Limites das APIs do Foundation Model
Para obter informações detalhadas sobre APIs do Foundation Model, incluindo limites de recursos e de carga útil para modelos de base e externos, consulte Limites de taxa e quotas APIs do Foundation Model.
Disponibilidade regional
Se o senhor precisar de um endpoint em uma região sem suporte, entre em contato com a equipe do Databricks account .
Se o seu workspace estiver implantado em uma região que ofereça suporte ao servindo modelo, mas for atendido por um plano de controle em uma região sem suporte, o workspace não oferece suporte ao servindo modelo. Se o senhor tentar usar o servindo modelo em tal workspace, verá uma mensagem de erro informando que o seu workspace não é compatível. Entre em contato com a equipe do Databricks account para obter mais informações.
Consulte a disponibilidade do modelo de recurso servindo para obter mais informações sobre a disponibilidade regional de cada modelo de recurso servindo.
Para obter a disponibilidade da região do modelo de fundação hospedado no Databricks, consulte Modelos de fundação hospedados no Databricks.