Pular para o conteúdo principal

Limites e cotas das APIs do Foundation Model

Esta página descreve os limites e as cotas das cargas de trabalho das APIs do Databricks Foundation Model.

Databricks Foundation Model APIs impõe limites de taxa para garantir desempenho confiável e alocação justa de recursos para todos os usuários. Esses limites variam de acordo com o nível da plataformaworkspace, o tipo de modelo de fundação e como o senhor implantou o modelo de fundação.

Pay-per-tokens endpoint limites de taxa

Os pontos de extremidade de pagamento por tokens são regidos por limites de taxa baseados em tokens e em consultas. Os limites de taxa baseados em tokens controlam o número máximo de tokens que pode ser processado por minuto e são aplicados separadamente para entrada e saída tokens.

  • Entrada tokens por minuto (ITPM) : O número máximo de entradas tokens (de seus prompts) que podem ser processadas em uma janela de 60 segundos. Um limite de taxa de ITPM controla os tokens de entrada Taxa de transferência de um endpoint.
  • Output tokens per minute (OTPM) : O número máximo de output tokens (das respostas do modelo) que pode ser gerado em uma janela de 60 segundos. Um limite de taxa OTPM controla os tokens de saída Taxa de transferência de um endpoint.
  • Consultas por hora : o número máximo de consultas ou solicitações que podem ser processadas em uma janela de 60 minutos. Para aplicativos de produção com padrões de uso sustentados, o site Databricks recomenda o provisionamento de taxa de transferência de endpoint, que fornece capacidade garantida.

Como os limites são monitorados e aplicados

O limite de taxa mais restritivo (ITPM, OTPM, QPH) se aplica a qualquer momento. Por exemplo, mesmo que você não tenha atingido seu limite de ITPM, você ainda poderá ter uma taxa limitada se exceder o limite de QPH ou OTPM. Quando o limite de ITPM ou OTPM é atingido, as solicitações subsequentes recebem um erro 429 que indica que muitas solicitações foram recebidas. Essa mensagem persiste até que a janela de limite de taxa seja redefinida.

Databricks rastreia e impõe limites de taxa de tokens por minuto (TPM) usando o seguinte recurso:

Recurso

Detalhes

Contabilidade de tokens e verificações de pré-admissão

  • Contagem de tokens de entrada : A entrada tokens é contada a partir de seu prompt real no momento da solicitação.
  • Estimativa de tokens de saída : Se o senhor fornecer max_tokens em sua solicitação, Databricks usará esse valor para estimar e reservar a capacidade de tokens de saída antes que a solicitação seja admitida para processamento.
  • Validação pré-admissão : A Databricks verifica se sua solicitação excederia os limites de ITPM ou OTPM antes de iniciar o processamento. Se o site max_tokens fizer com que o senhor exceda os limites do OTPM, o Databricks rejeitará a solicitação imediatamente com um erro 429.
  • Saída real versus saída estimada : Depois que a resposta é gerada, os tokens de saída reais são contados. É importante ressaltar que, se o uso real de tokens for menor do que o reservado max_tokens, Databricks credita a diferença de volta ao seu limite de taxa , tornando esses tokens imediatamente disponíveis para outras solicitações.
  • Não foi especificado max_tokens : Se o senhor não especificar max_tokens, Databricks usará uma reserva default e a contagem real de tokens será reconciliada após a geração.

Capacidade de explosão e suavização

  • Buffer de burst : O limitador de taxa inclui um pequeno buffer para acomodar rajadas curtas de tráfego acima da taxa nominal.
  • Janela desl izante: O consumo de tokens é rastreado usando um algoritmo de janela deslizante que fornece uma limitação de taxa mais suave do que os limites rígidos por minuto.
  • Algoritmo de tokens bucket : o site Databricks usa uma implementação de tokens bucket que permite alguma capacidade de explosão e, ao mesmo tempo, mantém o limite de taxa média ao longo do tempo.

A seguir está um exemplo de como a verificação pré-admissão e o comportamento de devolução do crédito funcionam.

Python
# Request with max_tokens specified
request = {
"prompt": "Write a story about...", # 10 input tokens
"max_tokens": 500 # System reserves 500 output tokens
}

# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately

# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests

Limites de taxa por modelo

As tabelas a seguir resumem os limites de taxa ITPM, OTPM e QPH para o endpoint pay-per-tokens Foundation Model API para o espaço de trabalho da camada Enterprise :

Grandes modelos de linguagem

Limite de ITPM

Limite OTPM

Limite de QPH

Notas

PERDA DE GPT 120G

200.000

10.000

7.200

LLM de uso geral

PERDA DE GPT 20B

200.000

10.000

7.200

Variante GPT menor

Gemma 3 12B

200.000

10.000

7.200

Modelo Gemma do Google

Llama 4 Maverick

200.000

10.000

2.400

Último lançamento da Llama

Llama 3.3 70B Instruct

200.000

10.000

2.400

Modelo Llama de tamanho médio

Llama 3.1 8B Instruct

200.000

10.000

7.200

Modelo Llama leve

Llama 3.1 405B Instruct

5.000

500

1.200

Maior modelo de Llama - limites reduzidos devido ao tamanho

Anthropic Modelos Claude

Limite de ITPM

Limite OTPM

Limite de QPH

Notas

Cláusula 3.7 Soneto

50.000

5.000

2.400

Modelo de Claude balanceado

Claude Soneto 4

50.000

5.000

60

Versão mais recente do Sonnet

Cláudia Opus 4

50.000

5.000

600

Modelo Claude mais capaz

Modelos de incorporação

Limite de ITPM

Limite OTPM

Limite de QPH

Notas

GTE Large (En)

N/A

N/A

540.000

Modelo de incorporação de texto - não gera incorporações normalizadas

BGE Grande (En)

N/A

N/A

2.160.000

Modelo de incorporação de texto

gerenciar as melhores práticas de limites de taxa de TPM

Etapa 1. Monitorar o uso de tokens

Acompanhe as contagens de tokens de entrada e saída separadamente em seus aplicativos:

Python
# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens

# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
# Implement backoff strategy
pass

Etapa 2. Implemente a lógica de repetição

Adicione um recuo exponencial ao encontrar erros de limite de taxa:

Python
import time
import random

def retry_with_exponential_backoff(
func,
initial_delay: float = 1,
exponential_base: float = 2,
jitter: bool = True,
max_retries: int = 10,
):
"""Retry a function with exponential backoff."""

num_retries = 0
delay = initial_delay

while num_retries < max_retries:
try:
return func()
except Exception as e:
if "rate_limit" in str(e) or "429" in str(e):
num_retries += 1

if jitter:
delay *= exponential_base * (1 + random.random())
else:
delay *= exponential_base

time.sleep(delay)
else:
raise e

raise Exception(f"Maximum retries {max_retries} exceeded")

Etapa 3. Otimizar o uso de tokens

  • Minimize a duração do prompt : use prompts concisos e bem estruturados
  • Controle o comprimento da saída : use o parâmetro max_tokens para limitar o tamanho da resposta
  • de forma eficiente : Agrupar solicitações relacionadas quando possível, mantendo-se dentro dos limites

Etapa 4. Considere a seleção do modelo

  • Modelos menores para tarefas de alto volume : Use modelos como o Llama 3.1 8B para tarefas que exigem maior Taxa de transferência
  • Modelos grandes para tarefas complexas : Reserve o site Llama 3.1 405B para tarefas que exijam capacidade máxima

monitoramento e solução de problemas

Monitore seus padrões de uso de tokens para otimizar o desempenho:

Python
# Example: Log token usage for monitoring
import logging

logger = logging.getLogger(__name__)

def log_token_usage(response):
usage = response.usage
logger.info(f"Input tokens: {usage.prompt_tokens}")
logger.info(f"Output tokens: {usage.completion_tokens}")
logger.info(f"Total tokens: {usage.total_tokens}")

# Alert if approaching limits
if usage.prompt_tokens > ITPM_LIMIT * 0.8:
logger.warning("Approaching ITPM limit")
if usage.completion_tokens > OTPM_LIMIT * 0.8:
logger.warning("Approaching OTPM limit")

Lidar com erros de limite de taxa

Quando o senhor excede os limites de taxa, a API retorna um erro 429 Too Many Requests:

JSON
{
"error": {
"message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
"type": "rate_limit_exceeded",
"code": 429,
"limit_type": "input_tokens_per_minute",
"limit": 200000,
"current": 200150,
"retry_after": 15
}
}

A resposta de erro inclui:

  • limit_type: Qual limite específico foi excedido (ITPM, OTPM, QPS ou QPH)
  • limit: O valor limite configurado
  • current: Seu uso atual
  • retry_after: Tempo de espera sugerido em segundos

Problemas e soluções comuns

Problema

soluções

Erros frequentes (429)

Implemente o recuo exponencial, reduza a taxa de solicitações e solicite limites de taxa mais altos

Limite de ITPM atingido

Otimize o comprimento do prompt

Limite de OTPM atingido

Use max_tokens para limitar a duração da resposta

Limite de QPH atingido

Distribua as solicitações de forma mais uniforme ao longo do tempo

provisionamento Taxa de transferência limits

Para cargas de trabalho de produção que exigem limites mais altos, o provisionamento Taxa de transferência endpoint offer:

  • Sem restrições de TPM : Capacidade de processamento com base no provisionamento recurso
  • Limites de taxa mais altos : Até 200 consultas por segundo por workspace
  • Desempenho previsível : recursos dedicados garantem latência consistente

A seguir, limitações para as cargas de trabalho do provisionamento Taxa de transferência:

  • Para usar a arquitetura do modelo DBRX para uma carga de trabalho de taxa de transferência de provisionamento , o site endpoint deve estar em us-east-1 ou us-west-2.

  • Para cargas de trabalho de provisionamento Taxa de transferência que usam Llama 4 Maverick :

    • O suporte a esse modelo em cargas de trabalho de Taxa de transferência de provisionamento está em Public Preview.
    • a autoescala não é suportada.
    • Não há suporte para painéis de métricas.
    • A divisão de tráfego não é suportada em um endpoint que atende ao Llama 4 Maverick. O senhor não pode atender a vários modelos em um endpoint que atende ao Llama 4 Maverick.
  • Para implantar um modelo Meta Llama de system.ai em Unity Catalog, o senhor deve escolher a versão do Instruct aplicável. As versões básicas dos modelos Meta Llama não são compatíveis com a implantação a partir do Unity Catalog. Veja o ponto final da Taxa de transferência de provisionamento implantado.

Disponibilidade regional e processamento de dados

Para obter a disponibilidade da região do modelo de fundação hospedado pelo Databricks, consulte Visão geral do modelo de fundação.

Para obter detalhes sobre processamento de dados e residência, consulte Processamento de dados e residência.

Recurso adicional