Pular para o conteúdo principal

servindo modelo limites e regiões

Este artigo resume as limitações e a disponibilidade de regiões para Mosaic AI Model Serving e os tipos de endpoint compatíveis.

limites de recurso e carga útil

Mosaic AI Model Serving impõe default limites para garantir um desempenho confiável. Se o senhor tiver comentários sobre esses limites, entre em contato com a equipe Databricks account .

A tabela a seguir resume as limitações de recurso e carga útil para atender ao modelo de endpoint.

Recurso

Granularidade

Limite

Tamanho da carga útil

Por solicitação

16 MB. Para modelos de base que atendem a endpoints, modelos externos ou agentesAI, o limite é de 4 MB.

Tamanho da solicitação/resposta

Por solicitação

Qualquer solicitação/resposta com mais de 1 MB não será registrada.

Consultas por segundo (QPS)

Por workspace

200, mas pode ser aumentado para 25.000 ou mais entrando em contato com a equipe Databricks account .

Duração da execução do modelo

Por solicitação

120 segundos

Uso de memória do modelo de endpoint da CPU

Por endpoint

4 GB

Uso de memória do modelo de endpoint de GPU

Por endpoint

Maior ou igual à memória de GPU atribuída, depende do tamanho da carga de trabalho da GPU

provisionamento concurrency

Por modelo e por workspace

200 de simultaneidade. Pode ser aumentado entrando em contato com a equipe Databricks account .

Latência de sobrecarga

Por solicitação

Menos de 50 milissegundos

Init scripts

Os scripts de inicialização não são suportados.

Modelo da Fundação APIs (pay-per-tokens) limites de taxa

Por workspace

Se os limites a seguir forem insuficientes para seu caso de uso, o site Databricks recomenda o uso do provisionamento Taxa de transferência. - O Llama 3.3 70B Instruct tem um limite de 2 consultas por segundo e 1200 consultas por hora. - O Llama 3.1 405B Instruct tem um limite de 1 consulta por segundo e 1200 consultas por hora. - O modelo DBRX Instruct tem um limite de 1 consulta por segundo. - O Mixtral-8x 7B Instruct tem um limite de taxa de default de 2 consultas por segundo. - O GTE Large (En) tem um limite de taxa de 150 consultas por segundo - O BGE Large (En) tem um limite de taxa de 600 consultas por segundo.

Modelo da Fundação APIs (provisionamento Taxa de transferência) limites de taxa

Por workspace

200

Limitações de rede e segurança

  • servindo modelo endpoint são protegidos por controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no workspace, como listas de permissões de IP e PrivateLink.
  • Em default, o servindo modelo não oferece suporte a PrivateLink para endpoint externo. O suporte para essa funcionalidade é avaliado e implementado por região. Entre em contato com a equipe do Databricks account para obter mais informações.
  • A servindo modelo não fornece patches de segurança para imagens de modelos existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão do modelo conterá os patches mais recentes. Entre em contato com a equipe do Databricks account para obter mais informações.

Limites das APIs do Foundation Model

nota

Como parte do fornecimento das APIs do Modelo Básico, a Databricks pode processar seus dados fora da região e do provedor de nuvem onde seus dados foram originados.

Tanto para cargas de trabalho de pagamento por tokens quanto de provisionamento :

  • Somente os administradores do site workspace podem alterar as configurações de governança, como limites de taxa para o endpoint Foundation Model APIs. Para alterar os limites de taxa, use as seguintes etapas:

    1. Abra a Serving UI em seu site workspace para ver seu endpoint de serviço.
    2. No menu kebab do Foundation Model APIs endpoint que o senhor deseja editar, selecione view details (ver detalhes) .
    3. No menu kebab no canto superior direito da página de detalhes do endpoint, selecione Change rate limit (Alterar limite de taxa ).
  • Os modelos de incorporação GTE Large (En) não geram incorporações normalizadas.

Limites de pagamento por tokens

A seguir, os limites relevantes para as APIs cargas de trabalho pay-per-tokens do Foundation Model:

  • As cargas de trabalho pay-per-tokens são compatíveis com HIPAA.

    • Para clientes com o perfil de segurança de conformidade ativado, as cargas de trabalho pay-per-tokens estão disponíveis desde que compliance standard HIPAA ou None seja selecionado. Outros padrões do site compliance não são compatíveis com cargas de trabalho pay-per-tokens.
  • Os modelos Meta Llama 3.3 70B Instruct e GTE Large (En) estão disponíveis em regiões com suporte para pay-per-tokens na UE e nos EUA.

  • Os seguintes modelos de pay-per-tokens são compatíveis apenas com o modelo Foundation APIs regiões dos EUA compatíveis com pay-per-tokens:

    • Meta Llama 3.1 405B Instruct
    • DBRX Instruct
    • Instrução Mixtral-8x7B
    • BGE Grande (En)
  • Se o seu workspace estiver em uma região servindo modelo, mas não em uma região dos EUA ou da UE, o seu workspace deverá estar habilitado para o processamento de dados entre regiões geográficas. Quando ativada, sua carga de trabalho pay-per-tokens é roteada para os EUA. Databricks Geo. Para ver quais regiões geográficas processam cargas de trabalho pay-per-tokens, consulte Databricks Designated service.

provisionamento Taxa de transferência limits

Os limites a seguir são relevantes para as cargas de trabalho do modelo da Fundação APIs provisionamento Taxa de transferência :

  • O provisionamento Taxa de transferência é compatível com o perfil HIPAA compliance e é recomendado para cargas de trabalho que exigem certificações compliance.
  • Para usar a arquitetura do modelo DBRX para uma carga de trabalho de taxa de transferência de provisionamento , o servidor endpoint deve estar em us-east-1 ou us-west-2.
  • A tabela a seguir mostra a disponibilidade regional dos modelos Meta Llama 3.1, 3.2 e 3.3 compatíveis. Consulte Implantação de modelos de fundação ajustados para obter orientação sobre como implantar modelos ajustados.
  • Para implantar um modelo Meta Llama de system.ai em Unity Catalog, o senhor deve escolher a versão do Instruct aplicável. As versões básicas dos modelos Meta Llama não são compatíveis com a implantação a partir do Unity Catalog. Consulte os modelos de fundação implantada [Recomendados] em Unity Catalog.

Variante do modelo Meta Llama

Regiões

Meta-lhama/Lhama-3.1-8B

  • us-east-1
  • us-east-2
  • us-west-2
  • ap-northeast-1
  • ap-southeast-1
  • ap-southeast-2
  • eu-central-1
  • eu-west-1

Meta-Llama/Llama-3.1-8B-Instruct

  • us-east-1
  • us-east-2
  • us-west-2
  • ap-northeast-1
  • ap-southeast-1
  • ap-southeast-2
  • eu-central-1
  • eu-west-1

Meta-Lhama/Lhama-3.1-70B

  • us-east-1
  • us-east-2
  • us-west-2
  • ap-northeast-1
  • ap-southeast-1
  • ap-southeast-2
  • eu-central-1
  • eu-west-1

Meta-Llama/Llama-3.1-70B-Instruct

  • us-east-1
  • us-east-2
  • us-west-2
  • ap-northeast-1
  • ap-southeast-1
  • ap-southeast-2
  • eu-central-1
  • eu-west-1

Meta-lama/Lhama-3.1-405B

  • us-east-1
  • us-east-2
  • us-west-2
  • ap-northeast-1
  • ap-southeast-1
  • ap-southeast-2
  • eu-central-1
  • eu-west-1

Meta-Llama/Llama-3.1-405B-Instruct

  • us-east-1
  • us-east-2
  • us-west-2
  • ap-northeast-1
  • ap-southeast-1
  • ap-southeast-2
  • eu-central-1
  • eu-west-1

Meta-lhama/Lhama-3.2-1b

  • us-east-1
  • us-east-2
  • us-west-2
  • ap-northeast-1
  • ap-southeast-1
  • ap-southeast-2
  • eu-central-1
  • eu-west-1

Meta-Llama/Llama-3.2-1B-Instruct

  • us-east-1
  • us-east-2
  • us-west-2
  • ap-northeast-1
  • ap-southeast-1
  • ap-southeast-2
  • eu-central-1
  • eu-west-1

Meta-lhama/Lhama-3.2-3b

  • us-east-1
  • us-east-2
  • us-west-2
  • ap-northeast-1
  • ap-southeast-1
  • ap-southeast-2
  • eu-central-1
  • eu-west-1

Meta-Llama/Llama-3.2-3B-Instruct

  • us-east-1
  • us-east-2
  • us-west-2
  • ap-northeast-1
  • ap-southeast-1
  • ap-southeast-2
  • eu-central-1
  • eu-west-1

Meta-lhama/Lhama-3.3-70B

  • us-east-1
  • us-east-2
  • us-west-2
  • ap-northeast-1
  • ap-southeast-1
  • ap-southeast-2
  • eu-central-1
  • eu-west-1

Disponibilidade regional

nota

Se o senhor precisar de um endpoint em uma região sem suporte, entre em contato com a equipe do Databricks account .

Se o seu workspace estiver implantado em uma região que ofereça suporte ao servindo modelo, mas for atendido por um plano de controle em uma região sem suporte, o workspace não oferece suporte ao servindo modelo. Se o senhor tentar usar o servindo modelo em tal workspace, verá uma mensagem de erro informando que o seu workspace não é compatível. Entre em contato com a equipe do Databricks account para obter mais informações.

Para obter mais informações sobre a disponibilidade regional de recurso, consulte servindo modelo recurso availability.