Pular para o conteúdo principal

servindo modelo limites e regiões

info

Visualização

O Mosaic AI Model Serving está em Public Preview e é compatível com os sites us-east1 e us-central1.

Este artigo resume as limitações e a disponibilidade de regiões para Mosaic AI Model Serving e os tipos de endpoint compatíveis.

limites de recurso e carga útil

Mosaic AI Model Serving impõe default limites para garantir um desempenho confiável. Se o senhor tiver comentários sobre esses limites, entre em contato com a equipe Databricks account .

A tabela a seguir resume as limitações de recurso e carga útil para atender ao modelo de endpoint.

Recurso

Granularidade

Limite

Tamanho da carga útil

Por solicitação

16 MB. Para modelos de base que atendem a endpoints ou modelos externos, o limite é de 4 MB.

Consultas por segundo (QPS)

Por workspace

200, mas pode ser aumentado para 25.000 ou mais entrando em contato com a equipe Databricks account .

Duração da execução do modelo

Por solicitação

120 segundos

Uso de memória do modelo de endpoint da CPU

Por endpoint

4 GB

provisionamento concurrency

Por workspace

200 de simultaneidade. Pode ser aumentado entrando em contato com a equipe Databricks account .

Latência de sobrecarga

Por solicitação

Menos de 50 milissegundos

Init scripts

Os scripts de inicialização não são suportados.

Modelo da Fundação APIs (pay-per-tokens) limites de taxa

Por workspace

O Llama 3.3 70B Instruct tem um limite de 2 consultas por segundo e 1200 consultas por hora. Se esse limite for insuficiente para seu caso de uso, o site Databricks recomenda o uso do provisionamento Taxa de transferência.

Modelo da Fundação APIs (provisionamento Taxa de transferência) limites de taxa

Por workspace

200

Limitações de rede e segurança

  • Os endpoints do modelo servindo são protegidos pelo controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no site workspace.
  • A servindo modelo não fornece patches de segurança para imagens de modelos existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão do modelo conterá os patches mais recentes. Entre em contato com a equipe do Databricks account para obter mais informações.

Limites das APIs do Foundation Model

nota

Como parte do fornecimento das APIs do Modelo Básico, a Databricks pode processar seus dados fora da região e do provedor de nuvem onde seus dados foram originados.

Tanto para cargas de trabalho de pagamento por tokens quanto de provisionamento :

Somente os administradores do site workspace podem alterar as configurações de governança, como limites de taxa para o endpoint Foundation Model APIs. Para alterar os limites da taxa, use as seguintes etapas:

  1. Abra a Serving UI em seu site workspace para ver seu endpoint de serviço.
  2. No menu kebab do Foundation Model APIs endpoint que o senhor deseja editar, selecione view details (ver detalhes) .
  3. No menu kebab no canto superior direito da página de detalhes do endpoint, selecione Change rate limit (Alterar limite de taxa ).

Limites de pagamento por tokens

A seguir, os limites relevantes para as APIs cargas de trabalho pay-per-tokens do Foundation Model:

  • As cargas de trabalho pay-per-tokens são compatíveis com HIPAA.

    • Para clientes com o perfil de segurança de conformidade ativado, as cargas de trabalho pay-per-tokens estão disponíveis desde que compliance standard HIPAA ou None seja selecionado. Outros padrões do site compliance não são compatíveis com cargas de trabalho pay-per-tokens.
  • O Meta Llama 3.3 70B Instruct está disponível apenas em regiões com suporte de pay-per-tokens nos EUA.

provisionamento Taxa de transferência limits

Os limites a seguir são relevantes para as cargas de trabalho do modelo da Fundação APIs provisionamento Taxa de transferência :

  • O provisionamento Taxa de transferência é compatível com o perfil HIPAA compliance e é recomendado para cargas de trabalho que exigem certificações compliance.
  • Os modelos de incorporação GTE Large (En) não geram incorporações normalizadas.
  • A tabela a seguir mostra a disponibilidade regional dos modelos Meta Llama 3.1, 3.2 e 3.3 compatíveis. Consulte Implantação de modelos de fundação ajustados para obter orientação sobre como implantar modelos ajustados.

Variante do modelo Meta Llama

Regiões

Meta-Llama/Llama-3.1-8B-Instruct

  • us-east1 - us-central1

Meta-Llama/Llama-3.1-70B-Instruct

  • us-east1 - us-central1

Meta-Llama/Llama-3.2-1B-Instruct

  • us-east1 - us-central1

Meta-Llama/Llama-3.2-3B-Instruct

  • us-east1 - us-central1

Disponibilidade regional

nota

Se o senhor precisar de um endpoint em uma região sem suporte, entre em contato com a equipe do Databricks account .

Se o seu workspace estiver implantado em uma região que ofereça suporte ao servindo modelo, mas for atendido por um plano de controle em uma região sem suporte, o workspace não oferece suporte ao servindo modelo. Se o senhor tentar usar o servindo modelo em tal workspace, verá uma mensagem de erro informando que o seu workspace não é compatível. Entre em contato com a equipe do Databricks account para obter mais informações.

Para obter mais informações sobre a disponibilidade regional do recurso, consulte servindo modelo de disponibilidade regional.