Limites e cotas das APIs do Foundation Model
Esta página descreve os limites e as cotas das cargas de trabalho das APIs do Databricks Foundation Model.
Databricks Foundation Model APIs impõe limites de taxa para garantir desempenho confiável e alocação justa de recursos para todos os usuários. Esses limites variam de acordo com o nível da plataformaworkspace, o tipo de modelo de fundação e como o senhor implantou o modelo de fundação.
Pay-per-tokens endpoint limites de taxa
Os pontos de extremidade de pagamento por tokens são regidos por limites de taxa baseados em tokens e em consultas. Os limites de taxa baseados em tokens controlam o número máximo de tokens que pode ser processado por minuto e são aplicados separadamente para entrada e saída tokens.
- Entrada tokens por minuto (ITPM) : O número máximo de entradas tokens (de seus prompts) que podem ser processadas em uma janela de 60 segundos. Um limite de taxa de ITPM controla os tokens de entrada Taxa de transferência de um endpoint.
- Output tokens per minute (OTPM) : O número máximo de output tokens (das respostas do modelo) que pode ser gerado em uma janela de 60 segundos. Um limite de taxa OTPM controla os tokens de saída Taxa de transferência de um endpoint.
- Consultas por hora : o número máximo de consultas ou solicitações que podem ser processadas em uma janela de 60 minutos. Para aplicativos de produção com padrões de uso sustentados, o site Databricks recomenda o provisionamento de taxa de transferência de endpoint, que fornece capacidade garantida.
Como os limites são monitorados e aplicados
O limite de taxa mais restritivo (ITPM, OTPM, QPH) se aplica a qualquer momento. Por exemplo, mesmo que você não tenha atingido seu limite de ITPM, você ainda poderá ter uma taxa limitada se exceder o limite de QPH ou OTPM. Quando o limite de ITPM ou OTPM é atingido, as solicitações subsequentes recebem um erro 429 que indica que muitas solicitações foram recebidas. Essa mensagem persiste até que a janela de limite de taxa seja redefinida.
Databricks rastreia e impõe limites de taxa de tokens por minuto (TPM) usando o seguinte recurso:
Recurso | Detalhes |
---|---|
Contabilidade de tokens e verificações de pré-admissão |
|
Capacidade de explosão e suavização |
|
A seguir está um exemplo de como a verificação pré-admissão e o comportamento de devolução do crédito funcionam.
# Request with max_tokens specified
request = {
"prompt": "Write a story about...", # 10 input tokens
"max_tokens": 500 # System reserves 500 output tokens
}
# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately
# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests
Limites de taxa por modelo
As tabelas a seguir resumem os limites de taxa ITPM, OTPM e QPH para o endpoint pay-per-tokens Foundation Model API para o espaço de trabalho da camada Enterprise :
Grandes modelos de linguagem | Limite de ITPM | Limite OTPM | Limite de QPH | Notas |
---|---|---|---|---|
PERDA DE GPT 120G | 200.000 | 10.000 | 7.200 | LLM de uso geral |
PERDA DE GPT 20B | 200.000 | 10.000 | 7.200 | Variante GPT menor |
Gemma 3 12B | 200.000 | 10.000 | 7.200 | Modelo Gemma do Google |
Llama 4 Maverick | 200.000 | 10.000 | 2.400 | Último lançamento da Llama |
Llama 3.3 70B Instruct | 200.000 | 10.000 | 2.400 | Modelo Llama de tamanho médio |
Llama 3.1 8B Instruct | 200.000 | 10.000 | 7.200 | Modelo Llama leve |
Llama 3.1 405B Instruct | 5.000 | 500 | 1.200 | Maior modelo de Llama - limites reduzidos devido ao tamanho |
Anthropic Modelos Claude | Limite de ITPM | Limite OTPM | Limite de QPH | Notas |
---|---|---|---|---|
Cláusula 3.7 Soneto | 50.000 | 5.000 | 2.400 | Modelo de Claude balanceado |
Claude Soneto 4 | 50.000 | 5.000 | 60 | Versão mais recente do Sonnet |
Cláudia Opus 4 | 50.000 | 5.000 | 600 | Modelo Claude mais capaz |
Modelos de incorporação | Limite de ITPM | Limite OTPM | Limite de QPH | Notas |
---|---|---|---|---|
GTE Large (En) | N/A | N/A | 540.000 | Modelo de incorporação de texto - não gera incorporações normalizadas |
BGE Grande (En) | N/A | N/A | 2.160.000 | Modelo de incorporação de texto |
gerenciar as melhores práticas de limites de taxa de TPM
Etapa 1. Monitorar o uso de tokens
Acompanhe as contagens de tokens de entrada e saída separadamente em seus aplicativos:
# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens
# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
# Implement backoff strategy
pass
Etapa 2. Implemente a lógica de repetição
Adicione um recuo exponencial ao encontrar erros de limite de taxa:
import time
import random
def retry_with_exponential_backoff(
func,
initial_delay: float = 1,
exponential_base: float = 2,
jitter: bool = True,
max_retries: int = 10,
):
"""Retry a function with exponential backoff."""
num_retries = 0
delay = initial_delay
while num_retries < max_retries:
try:
return func()
except Exception as e:
if "rate_limit" in str(e) or "429" in str(e):
num_retries += 1
if jitter:
delay *= exponential_base * (1 + random.random())
else:
delay *= exponential_base
time.sleep(delay)
else:
raise e
raise Exception(f"Maximum retries {max_retries} exceeded")
Etapa 3. Otimizar o uso de tokens
- Minimize a duração do prompt : use prompts concisos e bem estruturados
- Controle o comprimento da saída : use o parâmetro
max_tokens
para limitar o tamanho da resposta - de forma eficiente : Agrupar solicitações relacionadas quando possível, mantendo-se dentro dos limites
Etapa 4. Considere a seleção do modelo
- Modelos menores para tarefas de alto volume : Use modelos como o Llama 3.1 8B para tarefas que exigem maior Taxa de transferência
- Modelos grandes para tarefas complexas : Reserve o site Llama 3.1 405B para tarefas que exijam capacidade máxima
monitoramento e solução de problemas
Monitore seus padrões de uso de tokens para otimizar o desempenho:
# Example: Log token usage for monitoring
import logging
logger = logging.getLogger(__name__)
def log_token_usage(response):
usage = response.usage
logger.info(f"Input tokens: {usage.prompt_tokens}")
logger.info(f"Output tokens: {usage.completion_tokens}")
logger.info(f"Total tokens: {usage.total_tokens}")
# Alert if approaching limits
if usage.prompt_tokens > ITPM_LIMIT * 0.8:
logger.warning("Approaching ITPM limit")
if usage.completion_tokens > OTPM_LIMIT * 0.8:
logger.warning("Approaching OTPM limit")
Lidar com erros de limite de taxa
Quando o senhor excede os limites de taxa, a API retorna um erro 429 Too Many Requests
:
{
"error": {
"message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
"type": "rate_limit_exceeded",
"code": 429,
"limit_type": "input_tokens_per_minute",
"limit": 200000,
"current": 200150,
"retry_after": 15
}
}
A resposta de erro inclui:
limit_type
: Qual limite específico foi excedido (ITPM, OTPM, QPS ou QPH)limit
: O valor limite configuradocurrent
: Seu uso atualretry_after
: Tempo de espera sugerido em segundos
Problemas e soluções comuns
Problema | soluções |
---|---|
Erros frequentes (429) | Implemente o recuo exponencial, reduza a taxa de solicitações e solicite limites de taxa mais altos |
Limite de ITPM atingido | Otimize o comprimento do prompt |
Limite de OTPM atingido | Use |
Limite de QPH atingido | Distribua as solicitações de forma mais uniforme ao longo do tempo |
provisionamento Taxa de transferência limits
Para cargas de trabalho de produção que exigem limites mais altos, o provisionamento Taxa de transferência endpoint offer:
- Sem restrições de TPM : Capacidade de processamento com base no provisionamento recurso
- Limites de taxa mais altos : Até 200 consultas por segundo por workspace
- Desempenho previsível : recursos dedicados garantem latência consistente
A seguir, limitações para as cargas de trabalho do provisionamento Taxa de transferência:
- Os modelos de incorporação GTE Large (En) não geram incorporações normalizadas.
- Para cargas de trabalho de provisionamento Taxa de transferência que usam Llama 4 Maverick :
- O suporte a esse modelo em cargas de trabalho de Taxa de transferência de provisionamento está em Public Preview.
- a autoescala não é suportada.
- Não há suporte para painéis de métricas.
- A divisão de tráfego não é suportada em um endpoint que atende ao Llama 4 Maverick. O senhor não pode atender a vários modelos em um endpoint que atende ao Llama 4 Maverick.
Disponibilidade regional e processamento de dados
Para obter a disponibilidade da região do modelo de fundação hospedado pelo Databricks, consulte Visão geral do modelo de fundação.
Para obter detalhes sobre processamento de dados e residência, consulte Processamento de dados e residência.