Pular para o conteúdo principal

servindo modelo limites e regiões

Este artigo resume as limitações e a disponibilidade regional do modelo de serviço Databricks , bem como os tipos endpoint suportados.

limites de recurso e carga útil

O modelo privado impõe limites default para garantir um desempenho confiável. Se tiver algum comentário sobre esses limites, entre em contato com a equipe da sua account Databricks .

Os limites desta seção aplicam-se apenas a modelos personalizados e endpoints de agentesAI . Para APIs do Foundation Model e limites de recursos e payloads de modelos externos, consulte Limites de taxa e cotas APIs do Foundation Model.

Modelos personalizados e agentes AI

Recurso

Granularidade

Limite

Endpoints

Por workspace

1000. Entre em contato com a equipe da sua account Databricks para aumentar as chances de sucesso.

Consultas por segundo (QPS)

Por endpoint

300.000 usando otimização de rotas. Se 1024 conexões simultâneas não forem suficientes, entre em contato com a equipe da sua account Databricks para aumentar esse valor.

Consultas por segundo (QPS)

Por workspace

300.000 usando otimização de rotas. 200 para rotas não otimizadas, recomendado apenas para casos de uso de desenvolvimento de pequena escala.

provisionamento concurrency

Por modelo

1024 com opção personalizada e otimização de rota. Entre em contato com a equipe da sua account Databricks para aumentar as chances de sucesso.

provisionamento concurrency

Por workspace

4096. Entre em contato com a equipe da sua account Databricks para aumentar as chances de sucesso.

Criar/atualizar operações

Por workspace

50 em 5 minutos.

Tamanho da carga útil

Por solicitação

16 MB. Para o endpoint do agenteAI , o limite é de 4 MB.

Duração da execução do modelo

Por solicitação

297 segundos

Uso de memória do modelo de endpoint da CPU

Por endpoint

4 GB

Variáveis de ambiente

Modelo por porção

30. Entre em contato com a equipe da sua account Databricks para aumentar as chances de sucesso.

Latência de sobrecarga

Por solicitação

Menos de 20 milissegundos com otimização de rota.

:::

Limitações de rede e segurança

  • Os endpoints do modelo servindo são protegidos pelo controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no site workspace.
  • A servindo modelo não fornece patches de segurança para imagens de modelos existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão do modelo conterá os patches mais recentes. Entre em contato com a equipe do Databricks account para obter mais informações.

Limites das APIs do Foundation Model

Para obter informações detalhadas sobre APIs do Foundation Model, incluindo limites de recursos e de carga útil para modelos de base e externos, consulte Limites de taxa e quotas APIs do Foundation Model.

Disponibilidade regional

nota

Se o senhor precisar de um endpoint em uma região sem suporte, entre em contato com a equipe do Databricks account .

Se o seu workspace estiver implantado em uma região que ofereça suporte ao servindo modelo, mas for atendido por um plano de controle em uma região sem suporte, o workspace não oferece suporte ao servindo modelo. Se o senhor tentar usar o servindo modelo em tal workspace, verá uma mensagem de erro informando que o seu workspace não é compatível. Entre em contato com a equipe do Databricks account para obter mais informações.

Para obter mais informações sobre a disponibilidade regional de recurso, consulte servindo modelo recurso availability.

Para obter a disponibilidade da região do modelo de fundação hospedado no Databricks, consulte Modelos de fundação hospedados no Databricks.