servindo modelo limites e regiões

Este artigo resume as limitações e a disponibilidade de regiões para Mosaic AI Model Serving e os tipos de endpoint compatíveis.

limites de recurso e carga útil

Mosaic AI Model Serving impõe default limites para garantir um desempenho confiável. Se o senhor tiver comentários sobre esses limites, entre em contato com a equipe Databricks account .

A tabela a seguir resume as limitações de recurso e carga útil para atender ao modelo de endpoint.

Recurso

Granularidade

Limite

Tamanho da carga útil

Por solicitação

16 MB. Para modelos de base que atendem a endpoints ou modelos externos, o limite é de 4 MB.

Consultas por segundo (QPS)

Por workspace

200, mas pode ser aumentado para 25.000 ou mais entrando em contato com a equipe da Databricks account.

Duração da execução do modelo

Por solicitação

120 segundos

Uso de memória do modelo de endpoint da CPU

Por endpoint

4 GB

Uso de memória do modelo de endpoint de GPU

Por endpoint

Maior ou igual à memória da GPU atribuída, dependendo do tamanho da carga de trabalho da GPU

provisionamento concurrency

Por modelo e por workspace

200 de simultaneidade. Pode ser aumentado entrando em contato com a equipe da Databricks account.

Latência de sobrecarga

Por solicitação

Menos de 50 milissegundos

Init scripts

Os scripts de inicialização não são suportados.

Limites de taxa de APIs do modelo Foundation (pay-per-tokens)

Por workspace

Se os limites a seguir forem insuficientes para seu caso de uso, o site Databricks recomenda o uso do provisionamento Taxa de transferência.

  • O Llama 3.1 70B Instruct tem um limite de 2 consultas por segundo e 1200 consultas por hora.

  • O Llama 3.1 405B Instruct tem um limite de 1 consulta por segundo e 1200 consultas por hora.

  • O modelo DBRX Instruct tem um limite de 1 consulta por segundo.

  • Mixtral-8x 7B Instruct tem um limite de taxa de default de 2 consultas por segundo.

  • O GTE Large (En) tem um limite de taxa de 150 consultas por segundo

  • O BGE Large (En) tem um limite de taxa de 600 consultas por segundo.

Foundation Model APIs (provisionamento Taxa de transferência) limites de taxa

Por workspace

200

servindo modelo endpoint são protegidos por controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no workspace, como listas de permissões de IP e PrivateLink.

Existem limitações adicionais:

  • Se o seu workspace estiver implantado em uma região que ofereça suporte ao servindo modelo, mas for atendido por um plano de controle em uma região sem suporte, o workspace não oferece suporte ao servindo modelo. Se o senhor tentar usar o servindo modelo em tal workspace, verá uma mensagem de erro informando que o seu workspace não é compatível. Entre em contato com a equipe do Databricks account para obter mais informações.

  • O Serviço de Modelo não oferece suporte a init scripts.

  • Em default, o servindo modelo não suporta PrivateLink para endpoint externo. O suporte a essa funcionalidade é avaliado e implementado de acordo com a região. Entre em contato com a equipe da Databricks account para obter mais informações.

  • A servindo modelo não fornece patches de segurança para imagens de modelos existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão de modelo conterá os patches mais recentes. Entre em contato com a equipe do Databricks account para obter mais informações.

Limitações de rede e segurança

  • servindo modelo endpoint são protegidos por controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no workspace, como listas de permissões de IP e PrivateLink.

  • Em default, o servindo modelo não suporta PrivateLink para endpoint externo. O suporte para essa funcionalidade é avaliado e implementado por região. Entre em contato com a equipe do Databricks account para obter mais informações.

  • A servindo modelo não fornece patches de segurança para imagens de modelos existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão de modelo conterá os patches mais recentes. Entre em contato com a equipe do Databricks account para obter mais informações.

Limites das APIs do Foundation Model

Observação

Como parte do fornecimento do Modelo Básico APIs, Databricks poderá processar seus dados fora da região e do provedor cloud onde seus dados foram originados.

Tanto para cargas de trabalho de pagamento por tokens quanto de provisionamento:

  • Somente os administradores do site workspace podem alterar as configurações de governança, como limites de taxa para o endpoint Foundation Model APIs. Para alterar os limites de taxa, use os seguintes passos:

    1. Abra a Serving UI em seu site workspace para ver seu endpoint de serviço.

    2. No menu kebab do endpoint do Foundation Model APIs que o senhor deseja editar, selecione view details.

    3. No menu kebab no canto superior direito da página de detalhes do endpoint, selecione Change rate limit (Alterar limite de taxa).

  • Os modelos de incorporação GTE Large (En) não geram incorporações normalizadas.

Limites de pagamento por tokens

A seguir, os limites relevantes para as APIs cargas de trabalho pay-per-tokens do Foundation Model:

  • As cargas de trabalho pay-per-tokens não são compatíveis com o perfil de segurança HIPAA ou compliance.

  • Os modelos GTE Large (En) e Meta Llama 3.1 70B Instruct estão disponíveis em regiões com suporte para pay-per-tokens na UE e nos EUA.

  • Os seguintes modelos de pay-per-tokens são compatíveis apenas com o modelo Foundation APIs regiões dos EUA compatíveis com pay-per-tokens:

    • Meta Llama 3.1 405B Instruct

    • DBRX Instruct

    • Instrução Mixtral-8x7B

    • BGE Grande (En)

  • Se o seu workspace estiver em uma região servindo modelo, mas não em uma região dos EUA ou da UE, o seu workspace deverá estar habilitado para o processamento de dados entre regiões geográficas. Quando ativada, sua carga de trabalho pay-per-tokens é roteada para os EUA. Databricks Geo. Para ver quais regiões geográficas processam cargas de trabalho pay-per-tokens, consulte Databricks Designated service.

provisionamento Taxa de transferência limits

Os limites a seguir são relevantes para as cargas de trabalho do modelo da Fundação APIs provisionamento Taxa de transferência:

  • O provisionamento Taxa de transferência é compatível com o perfil HIPAA compliance e é recomendado para cargas de trabalho que exigem certificações compliance.

  • Para usar a arquitetura do modelo DBRX para uma carga de trabalho de taxa de transferência de provisionamento, o servidor endpoint deve estar em us-east-1 ou us-west-2.

  • A tabela a seguir mostra a disponibilidade regional dos modelos Meta Llama 3.1 e 3.2 compatíveis. Consulte Implantação de modelos de fundação ajustados para obter orientação sobre como implantar modelos ajustados.

Variante do modelo Meta Llama

Regiões

Meta-lhama/Lhama-3.1-8B

  • us-east-1

  • us-east-2

  • us-west-2

  • ap-northeast-1

  • ap-southeast-1

Meta-Llama/Llama-3.1-8B-Instruct

  • us-east-1

  • us-east-2

  • us-west-2

  • ap-northeast-1

  • ap-southeast-1

Meta-Lhama/Lhama-3.1-70B

  • us-east-1

  • us-east-2

  • us-west-2

  • ap-northeast-1

  • ap-southeast-1

Meta-Llama/Llama-3.1-70B-Instruct

  • us-east-1

  • us-east-2

  • us-west-2

  • ap-northeast-1

  • ap-southeast-1

Meta-lama/Lhama-3.1-405B

  • us-east-1

  • us-east-2

  • us-west-2

  • ap-northeast-1

  • ap-southeast-1

Meta-Llama/Llama-3.1-405B-Instruct

  • us-east-1

  • us-east-2

  • us-west-2

  • ap-northeast-1

  • ap-southeast-1

Meta-lhama/Lhama-3.2-1b

  • us-east-1

  • us-east-2

  • us-west-2

  • ap-northeast-1

  • ap-southeast-1

Meta-Llama/Llama-3.2-1B-Instruct

  • us-east-1

  • us-east-2

  • us-west-2

  • ap-northeast-1

  • ap-southeast-1

Meta-lhama/Lhama-3.2-3b

  • us-east-1

  • us-east-2

  • us-west-2

  • ap-northeast-1

  • ap-southeast-1

Meta-Llama/Llama-3.2-3B-Instruct

  • us-east-1

  • us-east-2

  • us-west-2

  • ap-northeast-1

  • ap-southeast-1

Disponibilidade da região

Observação

Se o senhor precisar de um endpoint em uma região sem suporte, entre em contato com a equipe da Databricks account.

Se o seu workspace estiver implantado em uma região que ofereça suporte ao servindo modelo, mas for atendido por um plano de controle em uma região sem suporte, o workspace não oferece suporte ao servindo modelo. Se o senhor tentar usar o servindo modelo em tal workspace, verá uma mensagem de erro informando que o seu workspace não é compatível. Entre em contato com a equipe do Databricks account para obter mais informações.

Para obter mais informações sobre a disponibilidade regional do recurso, consulte servindo modelo recurso availability.