servindo modelo limites e regiões
Este artigo resume as limitações e a disponibilidade da região para o Databricks servindo modelo e tipos de endpoint suportados.
Limitações
O Databricks servindo modelo impõe default limites para garantir um desempenho confiável. Se o senhor tiver comentários sobre esses limites, entre em contato com a equipe do Databricks account.
A tabela a seguir resume as limitações de recurso e carga útil para atender ao modelo de endpoint.
Recurso |
Granularidade |
Limite |
---|---|---|
Tamanho da carga útil |
Por solicitação |
16MB |
Consultas por segundo (QPS) |
Por workspace |
200, mas pode ser aumentado para 25.000 ou mais entrando em contato com a equipe da Databricks account. |
Duração da execução do modelo |
Por solicitação |
120 segundos |
Uso de memória do modelo de endpoint da CPU |
Por endpoint |
4 GB |
Uso de memória do modelo de endpoint de GPU |
Por endpoint |
Maior ou igual à memória da GPU atribuída, dependendo do tamanho da carga de trabalho da GPU |
provisionamento concurrency |
Por workspace |
200 de simultaneidade. Pode ser aumentado entrando em contato com a equipe da Databricks account. |
Latência de sobrecarga |
Por solicitação |
Menos de 50 milissegundos |
Limites de taxa de APIs do modelo Foundation (pay-per-tokens) |
Por workspace |
Entre em contato com a equipe do Databricks account para aumentar os seguintes limites.
|
Foundation Model APIs (provisionamento Taxa de transferência) limites de taxa |
Por workspace |
200 |
servindo modelo endpoint são protegidos por controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no workspace, como listas de permissões de IP e PrivateLink.
Existem limitações adicionais:
Se o seu workspace estiver implantado em uma região que ofereça suporte ao servindo modelo, mas for atendido por um plano de controle em uma região sem suporte, o workspace não oferece suporte ao servindo modelo. Se o senhor tentar usar o servindo modelo em tal workspace, verá uma mensagem de erro informando que o seu workspace não é compatível. Entre em contato com a equipe do Databricks account para obter mais informações.
O Serviço de Modelo não oferece suporte a init scripts.
Em default, o servindo modelo não suporta PrivateLink para endpoint externo. O suporte a essa funcionalidade é avaliado e implementado de acordo com a região. Entre em contato com a equipe da Databricks account para obter mais informações.
Limites das APIs do Foundation Model
Observação
Como parte do fornecimento das APIs do Modelo Básico, a Databricks pode processar seus dados fora da região e do provedor de nuvens onde seus dados foram originados.
Os limites a seguir são relevantes para as cargas de trabalho das APIs do Foundation Model:
O provisionamento Taxa de transferência é compatível com o perfil HIPAA compliance e deve ser usado para cargas de trabalho que exigem certificações compliance. As cargas de trabalho pay-per-tokens não são compatíveis com o perfil de segurança HIPAA ou compliance.
Para o endpoint Foundation Model APIs, somente os administradores do workspace podem alterar as configurações de governança, como os limites de taxa. Para alterar os limites de taxa, use os seguintes passos:
Abra a Serving UI em seu site workspace para ver seu endpoint de serviço.
No menu kebab do endpoint do Foundation Model APIs que o senhor deseja editar, selecione view details.
No menu kebab no canto superior direito da página de detalhes do endpoint, selecione Change rate limit (Alterar limite de taxa).
Para usar a arquitetura do modelo DBRX para uma carga de trabalho de taxa de transferência de provisionamento, o servidor endpoint deve estar em
us-east-1
ouus-west-2
.
Disponibilidade da região
Observação
Se o senhor precisar de um endpoint em uma região sem suporte, entre em contato com a equipe da Databricks account.
Para cargas de trabalho de provisionamento Taxa de transferência que usam modelos DBRX, consulte Foundation Model APIs limits for region availability.
Região |
Localização |
Capacidade do modelo Core Servindo * |
APIs do modelo básico (provisionamento completo) ** |
APIs do modelo básico (pay-per-tokens) |
Modelos externos |
---|---|---|---|---|---|
|
Ásia-Pacífico (Tóquio) |
X |
X |
X |
|
|
Ásia-Pacífico (Seul) |
||||
|
Ásia-Pacífico (Mumbai) |
||||
|
Ásia-Pacífico (Singapura) |
X |
X |
||
|
Ásia-Pacífico (Sydney) |
X |
X |
X |
|
|
Canadá (Central) |
X |
X |
X |
|
|
UE (Frankfurt) |
X |
X |
X |
|
|
UE (Irlanda) |
X |
X |
X |
|
|
UE (Londres) |
||||
|
UE (Paris) |
||||
|
América do Sul (São Paulo) |
||||
|
Oeste dos EUA (Norte da Califórnia) |
||||
|
Oeste dos EUA (Oregon) |
X |
X |
X |
X |
|
Leste dos EUA (Virgínia do Norte) |
X |
X |
X |
X |
|
Leste dos EUA (Ohio) |
X |
X |
X |
X |
* somente a CPU compute
** inclui suporte para gpu