servindo modelo limites e regiões

Este artigo resume as limitações e a disponibilidade da região para o Databricks servindo modelo e tipos de endpoint suportados.

Limitações

O Databricks servindo modelo impõe default limites para garantir um desempenho confiável. Se o senhor tiver comentários sobre esses limites, entre em contato com a equipe do Databricks account.

A tabela a seguir resume as limitações de recurso e carga útil para atender ao modelo de endpoint.

Recurso

Granularidade

Limite

Tamanho da carga útil

Por solicitação

16MB

Consultas por segundo (QPS)

Por workspace

200, mas pode ser aumentado para 25.000 ou mais entrando em contato com a equipe da Databricks account.

Duração da execução do modelo

Por solicitação

120 segundos

Uso de memória do modelo de endpoint da CPU

Por endpoint

4 GB

Uso de memória do modelo de endpoint de GPU

Por endpoint

Maior ou igual à memória da GPU atribuída, dependendo do tamanho da carga de trabalho da GPU

provisionamento concurrency

Por workspace

200 de simultaneidade. Pode ser aumentado entrando em contato com a equipe da Databricks account.

Latência de sobrecarga

Por solicitação

Menos de 50 milissegundos

Limites de taxa de APIs do modelo Foundation (pay-per-tokens)

Por workspace

Entre em contato com a equipe do Databricks account para aumentar os seguintes limites.

  • O modelo DBRX Instruct tem um limite de 1 consulta por segundo.

  • Outros modelos de chat e de conclusão têm um limite de taxa de default de 2 consultas por segundo.

  • Os modelos de incorporação têm um default 300 entradas de incorporação por segundo.

Foundation Model APIs (provisionamento Taxa de transferência) limites de taxa

Por workspace

200

servindo modelo endpoint são protegidos por controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no workspace, como listas de permissões de IP e PrivateLink.

Existem limitações adicionais:

  • É possível que um workspace seja implantado em uma região com suporte, mas seja atendido por um plano de controle em uma região diferente. Esses espaços de trabalho não são compatíveis com o servindo modelo e resultam em uma mensagem de erro informando que o seu workspace não é compatível. Entre em contato com a equipe da Databricks account para obter mais informações.

  • O Serviço de Modelo não oferece suporte a init scripts.

  • Em default, o servindo modelo não suporta PrivateLink para endpoint externo. O suporte a essa funcionalidade é avaliado e implementado de acordo com a região. Entre em contato com a equipe da Databricks account para obter mais informações.

Limites das APIs do Foundation Model

Observação

Como parte do fornecimento das APIs do Modelo Básico, a Databricks pode processar seus dados fora da região e do provedor de nuvens onde seus dados foram originados.

Os limites a seguir são relevantes para as cargas de trabalho das APIs do Foundation Model:

  • O provisionamento Taxa de transferência é compatível com o perfil HIPAA compliance e deve ser usado para cargas de trabalho que exigem certificações compliance. As cargas de trabalho pay-per-tokens não são compatíveis com o perfil de segurança HIPAA ou compliance.

  • Para o endpoint Foundation Model APIs, somente os administradores do workspace podem alterar as configurações de governança, como os limites de taxa. Para alterar os limites de taxa, use os seguintes passos:

    1. Abra a Serving UI em seu site workspace para ver seu endpoint de serviço.

    2. No menu kebab do endpoint do Foundation Model APIs que o senhor deseja editar, selecione view details.

    3. No menu kebab no canto superior direito da página de detalhes do endpoint, selecione Change rate limit (Alterar limite de taxa).

  • Para usar a arquitetura do modelo DBRX para uma carga de trabalho de taxa de transferência de provisionamento, o servidor endpoint deve estar em us-east-1 ou us-west-2.

Disponibilidade da região

Observação

Se o senhor precisar de um endpoint em uma região sem suporte, entre em contato com a equipe da Databricks account.

Para cargas de trabalho de provisionamento Taxa de transferência que usam modelos DBRX, consulte Foundation Model APIs limits for region availability.

Região

Localização

Capacidade do modelo Core Servindo *

APIs do modelo básico (provisionamento completo) **

APIs do modelo básico (pay-per-tokens)

Modelos externos

ap-northeast-1

Ásia-Pacífico (Tóquio)

X

X

X

ap-northeast-2

Ásia-Pacífico (Seul)

ap-south-1

Ásia-Pacífico (Mumbai)

ap-southeast-1

Ásia-Pacífico (Singapura)

X

X

ap-southeast-2

Ásia-Pacífico (Sydney)

X

X

X

ca-central-1

Canadá (Central)

X

X

X

eu-central-1

UE (Frankfurt)

X

X

X

eu-west-1

UE (Irlanda)

X

X

X

eu-west-2

UE (Londres)

eu-west-3

UE (Paris)

sa-east-1

América do Sul (São Paulo)

us-west-1

Oeste dos EUA (Norte da Califórnia)

us-west-2

Oeste dos EUA (Oregon)

X

X

X

X

us-east-1

Leste dos EUA (Virgínia do Norte)

X

X

X

X

us-east-2

Leste dos EUA (Ohio)

X

X

X

X

* somente a CPU compute

** inclui suporte para gpu