Limites e cotas das APIs do Foundation Model

Esta página descreve os limites e as cotas das cargas de trabalho das APIs do Databricks Foundation Model.

Databricks Foundation Model APIs impõe limites de taxa para garantir desempenho confiável e alocação justa de recursos para todos os usuários. Esses limites variam de acordo com o nível da plataformaworkspace, o tipo de modelo de fundação e como o senhor implantou o modelo de fundação.

Pay-per-tokens endpoint limites de taxa

Os pontos de extremidade de pagamento por tokens são regidos por limites de taxa baseados em tokens e em consultas. Os limites de taxa baseados em tokens controlam o número máximo de tokens que pode ser processado por minuto e são aplicados separadamente para entrada e saída tokens.

Entrada tokens por minuto (ITPM) : O número máximo de entradas tokens (de seus prompts) que podem ser processadas em uma janela de 60 segundos. Um limite de taxa de ITPM controla os tokens de entrada Taxa de transferência de um endpoint.
Output tokens per minute (OTPM) : O número máximo de output tokens (das respostas do modelo) que pode ser gerado em uma janela de 60 segundos. Um limite de taxa OTPM controla os tokens de saída Taxa de transferência de um endpoint.
Consultas por hora : o número máximo de consultas ou solicitações que podem ser processadas em uma janela de 60 minutos. Para aplicativos de produção com padrões de uso sustentados, o site Databricks recomenda o provisionamento de taxa de transferência de endpoint, que fornece capacidade garantida.

Como os limites são monitorados e aplicados

O limite de taxa mais restritivo (ITPM, OTPM, QPH) se aplica a qualquer momento. Por exemplo, mesmo que você não tenha atingido seu limite de ITPM, você ainda poderá ter uma taxa limitada se exceder o limite de QPH ou OTPM. Quando o limite de ITPM ou OTPM é atingido, as solicitações subsequentes recebem um erro 429 que indica que muitas solicitações foram recebidas. Essa mensagem persiste até que a janela de limite de taxa seja redefinida.

Databricks rastreia e impõe limites de taxa de tokens por minuto (TPM) usando o seguinte recurso:

Recurso	Detalhes
Contabilidade de tokens e verificações de pré-admissão	Contagem de tokens de entrada : A entrada tokens é contada a partir de seu prompt real no momento da solicitação. Estimativa de tokens de saída : Se o senhor fornecer `max_tokens` em sua solicitação, Databricks usará esse valor para estimar e reservar a capacidade de tokens de saída antes que a solicitação seja admitida para processamento. Validação pré-admissão : A Databricks verifica se sua solicitação excederia os limites de ITPM ou OTPM antes de iniciar o processamento. Se o site `max_tokens` fizer com que o senhor exceda os limites do OTPM, o Databricks rejeitará a solicitação imediatamente com um erro 429. Saída real versus saída estimada : Depois que a resposta é gerada, os tokens de saída reais são contados. É importante ressaltar que, se o uso real de tokens for menor do que o reservado `max_tokens`, Databricks credita a diferença de volta ao seu limite de taxa , tornando esses tokens imediatamente disponíveis para outras solicitações. Não foi especificado max_tokens : Se o senhor não especificar `max_tokens`, Databricks usará uma reserva default e a contagem real de tokens será reconciliada após a geração. Observação: O Claude Sonnet 4 tem como padrão específico a saída de 1.000 tokens quando `max_tokens` não está definido, retornando o motivo de término "comprimento" quando atingido. Esse não é o tamanho máximo do contexto do modelo. Claude 3.7 Sonnet não tem esse default.
Capacidade de explosão e suavização	Buffer de burst : O limitador de taxa inclui um pequeno buffer para acomodar rajadas curtas de tráfego acima da taxa nominal. Janela desl izante: O consumo de tokens é rastreado usando um algoritmo de janela deslizante que fornece uma limitação de taxa mais suave do que os limites rígidos por minuto. Algoritmo de tokens bucket : o site Databricks usa uma implementação de tokens bucket que permite alguma capacidade de explosão e, ao mesmo tempo, mantém o limite de taxa média ao longo do tempo.

Recurso

Detalhes

Contabilidade de tokens e verificações de pré-admissão

Contagem de tokens de entrada : A entrada tokens é contada a partir de seu prompt real no momento da solicitação.
Estimativa de tokens de saída : Se o senhor fornecer max_tokens em sua solicitação, Databricks usará esse valor para estimar e reservar a capacidade de tokens de saída antes que a solicitação seja admitida para processamento.
Validação pré-admissão : A Databricks verifica se sua solicitação excederia os limites de ITPM ou OTPM antes de iniciar o processamento. Se o site max_tokens fizer com que o senhor exceda os limites do OTPM, o Databricks rejeitará a solicitação imediatamente com um erro 429.
Saída real versus saída estimada : Depois que a resposta é gerada, os tokens de saída reais são contados. É importante ressaltar que, se o uso real de tokens for menor do que o reservado max_tokens, Databricks credita a diferença de volta ao seu limite de taxa , tornando esses tokens imediatamente disponíveis para outras solicitações.
Não foi especificado max_tokens : Se o senhor não especificar max_tokens, Databricks usará uma reserva default e a contagem real de tokens será reconciliada após a geração.

Observação: O Claude Sonnet 4 tem como padrão específico a saída de 1.000 tokens quando max_tokens não está definido, retornando o motivo de término "comprimento" quando atingido. Esse não é o tamanho máximo do contexto do modelo. Claude 3.7 Sonnet não tem esse default.

Capacidade de explosão e suavização

Buffer de burst : O limitador de taxa inclui um pequeno buffer para acomodar rajadas curtas de tráfego acima da taxa nominal.
Janela desl izante: O consumo de tokens é rastreado usando um algoritmo de janela deslizante que fornece uma limitação de taxa mais suave do que os limites rígidos por minuto.
Algoritmo de tokens bucket : o site Databricks usa uma implementação de tokens bucket que permite alguma capacidade de explosão e, ao mesmo tempo, mantém o limite de taxa média ao longo do tempo.

A seguir está um exemplo de como a verificação pré-admissão e o comportamento de devolução do crédito funcionam.

Python
# Request with max_tokens specified
request = {
    "prompt": "Write a story about...",  # 10 input tokens
    "max_tokens": 500  # System reserves 500 output tokens
}

# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately

# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests

Limites de taxa por modelo

As tabelas a seguir resumem os limites de taxa ITPM, OTPM e QPH para o endpoint pay-per-tokens Foundation Model API para o espaço de trabalho da camada Enterprise :

nota

A partir de 15 de fevereiro de 2026, Meta-Llama-3.1-405B-Instruct irá se aposentar. Consulte a seção Modelos desativados para obter o modelo de substituição recomendado e orientações sobre como migrar durante o processo de descontinuação.

Grandes modelos de linguagem	Limite de ITPM	Limite OTPM	Limite de QPH	Notas
GPT-5.1	50.000	5.000	36.000	Mestrado em Direito (LLM) de propósito geral com capacidade de raciocínio.
GPT-5	50.000	5.000	36.000	LLM de uso geral
GPT-5 mini	50.000	5.000	36.000	LLM de uso geral
GPT-5 nano	50.000	5.000	36.000	LLM de uso geral
Prévia do Gemini 3 Pro	200.000	20.000	36.000
Gêmeos 2.5 Pro	200.000	20.000	2.400	Databricks não oferece suporte a solicitações com mais de 200 mil tokens de entrada ou tamanhos de solicitação maiores que 400 KB por default.
Gêmeos 2.5 Flash	200.000	20.000	2.400	Databricks não oferece suporte a solicitações com mais de 200 mil tokens de entrada ou tamanhos de solicitação maiores que 400 KB por default.
Qwen3-Next 80B A3B Instrução (Beta)	200.000	10.000		LLM de uso geral
PERDA DE GPT 120G	200.000	10.000		LLM de uso geral
PERDA DE GPT 20B	200.000	10.000		Variante GPT menor
Gemma 3 12B	200.000	10.000	7.200	Modelo Gemma do Google
Llama 4 Maverick	200.000	10.000	2.400	Último lançamento da Llama
Llama 3.3 70B Instruct	200.000	10.000	2.400	Modelo Llama de tamanho médio
Llama 3.1 8B Instruct	200.000	10.000	7.200	Modelo Llama leve
Llama 3.1 405B Instruct	5.000	500	1.200	Maior modelo de Llama - limites reduzidos devido ao tamanho

Anthropic Modelos Claude	Limite de ITPM	Limite OTPM	Notas
Cláusula 3.7 Soneto	50.000	5.000	Modelo de Claude balanceado
Claude Soneto 4	50.000	5.000
Claude Opus 4.1	50.000	5.000	Modelo Claude mais capaz
Soneto de Claude 4.5	50.000	5.000	Versão mais recente do Sonnet

Modelos de incorporação	Limite de ITPM	Limite OTPM	Limite de QPH	Notas
GTE Large (En)	N/A	N/A	540.000	Modelo de incorporação de texto - não gera incorporações normalizadas
BGE Grande (En)	N/A	N/A	2.160.000	Modelo de incorporação de texto

gerenciar as melhores práticas de limites de taxa de TPM

Etapa 1. Monitorar o uso de tokens

Acompanhe as contagens de tokens de entrada e saída separadamente em seus aplicativos:

Python
# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens

# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
    # Implement backoff strategy
    pass

Etapa 2. Implemente a lógica de repetição

Adicione um recuo exponencial ao encontrar erros de limite de taxa:

Python
import time
import random

def retry_with_exponential_backoff(
    func,
    initial_delay: float = 1,
    exponential_base: float = 2,
    jitter: bool = True,
    max_retries: int = 10,
):
    """Retry a function with exponential backoff."""

    num_retries = 0
    delay = initial_delay

    while num_retries < max_retries:
        try:
            return func()
        except Exception as e:
            if "rate_limit" in str(e) or "429" in str(e):
                num_retries += 1

                if jitter:
                    delay *= exponential_base * (1 + random.random())
                else:
                    delay *= exponential_base

                time.sleep(delay)
            else:
                raise e

    raise Exception(f"Maximum retries {max_retries} exceeded")

Etapa 3. Otimizar o uso de tokens

Minimize a duração do prompt : use prompts concisos e bem estruturados
Controle o comprimento da saída : use o parâmetro max_tokens para limitar o tamanho da resposta
Defina max_tokens explicitamente para o Claude Sonnet 4 : Sempre especifique max_tokens ao usar o Claude Sonnet 4 para evitar o limite de 1.000 tokens do default
de forma eficiente : Agrupar solicitações relacionadas quando possível, mantendo-se dentro dos limites

Etapa 4. Considere a seleção do modelo

Modelos menores para tarefas de alto volume : Use modelos como o Llama 3.1 8B para tarefas que exigem maior Taxa de transferência
Modelos grandes para tarefas complexas : Reserve o site Llama 3.1 405B para tarefas que exijam capacidade máxima

monitoramento e solução de problemas

Monitore seus padrões de uso de tokens para otimizar o desempenho:

Python
# Example: Log token usage for monitoring
import logging

logger = logging.getLogger(__name__)

def log_token_usage(response):
    usage = response.usage
    logger.info(f"Input tokens: {usage.prompt_tokens}")
    logger.info(f"Output tokens: {usage.completion_tokens}")
    logger.info(f"Total tokens: {usage.total_tokens}")

    # Alert if approaching limits
    if usage.prompt_tokens > ITPM_LIMIT * 0.8:
        logger.warning("Approaching ITPM limit")
    if usage.completion_tokens > OTPM_LIMIT * 0.8:
        logger.warning("Approaching OTPM limit")

Lidar com erros de limite de taxa

Quando o senhor excede os limites de taxa, a API retorna um erro 429 Too Many Requests:

JSON
{
  "error": {
    "message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
    "type": "rate_limit_exceeded",
    "code": 429,
    "limit_type": "input_tokens_per_minute",
    "limit": 200000,
    "current": 200150,
    "retry_after": 15
  }
}

A resposta de erro inclui:

limit_type: Qual limite específico foi excedido (ITPM, OTPM, QPS ou QPH)
limit: O valor limite configurado
current: Seu uso atual
retry_after: Tempo de espera sugerido em segundos

Problemas e soluções comuns

Problema	soluções
Erros frequentes (429)	Implemente o recuo exponencial, reduza a taxa de solicitações e solicite limites de taxa mais altos
Limite de ITPM atingido	Otimize o comprimento do prompt
Limite de OTPM atingido	Use `max_tokens` para limitar a duração da resposta
Limite de QPH atingido	Distribua as solicitações de forma mais uniforme ao longo do tempo

provisionamento Taxa de transferência limits

Para cargas de trabalho de produção que exigem limites mais altos, o provisionamento Taxa de transferência endpoint offer:

Sem restrições de TPM : Capacidade de processamento com base no provisionamento recurso
Limites de taxa mais altos : Até 200 consultas por segundo por workspace
Desempenho previsível : recursos dedicados garantem latência consistente

Limites de tokens de saída

nota

A partir de 15 de maio de 2026, Meta-Llama-3.1-405B-Instruct irá se aposentar. Consulte a seção Modelos desativados para obter o modelo de substituição recomendado e orientações sobre como migrar durante o processo de descontinuação.

A tabela a seguir resume os limites de tokens de saída para cada modelo suportado:

Modelo	Limite de tokens de saída
PERDA DE GPT 120G	25.000
PERDA DE GPT 20B	25.000
Gemma 3 12B	8.192
Llama 4 Maverick	8.192
Llama 3.1 405B	4.096
Llama 3.1 70B	8.192
Llama 3.1 8B	8.192

Limites adicionais

A seguir estão as limitações para cargas de trabalho de provisionamento de taxa de transferência:

Para usar a arquitetura do modelo DBRX para uma carga de trabalho de taxa de transferência de provisionamento , o site endpoint deve estar em us-east-1 ou us-west-2.
Para cargas de trabalho de provisionamento Taxa de transferência que usam Llama 4 Maverick :
- O suporte a esse modelo em cargas de trabalho de Taxa de transferência de provisionamento está em Public Preview.
- a autoescala não é suportada.
- Não há suporte para painéis de métricas.
- A divisão de tráfego não é suportada em um endpoint que atende ao Llama 4 Maverick. O senhor não pode atender a vários modelos em um endpoint que atende ao Llama 4 Maverick.
Para implantar um modelo Meta Llama de system.ai em Unity Catalog, o senhor deve escolher a versão do Instruct aplicável. As versões básicas dos modelos Meta Llama não são compatíveis com a implantação a partir do Unity Catalog. Veja o ponto final da Taxa de transferência de provisionamento implantado.

Disponibilidade regional e processamento de dados

Para obter a disponibilidade da região do modelo de fundação hospedado pelo Databricks, consulte Visão geral do modelo de fundação.

Para obter detalhes sobre processamento de dados e residência, consulte Processamento de dados e residência.

Pay-per-tokens endpoint limites de taxa​

Como os limites são monitorados e aplicados​

Limites de taxa por modelo​

gerenciar as melhores práticas de limites de taxa de TPM​

Etapa 1. Monitorar o uso de tokens​

Etapa 2. Implemente a lógica de repetição​

Etapa 3. Otimizar o uso de tokens​

Etapa 4. Considere a seleção do modelo​

monitoramento e solução de problemas​

Lidar com erros de limite de taxa​

Problemas e soluções comuns​

provisionamento Taxa de transferência limits​

Limites de tokens de saída​

Limites adicionais​

Disponibilidade regional e processamento de dados​

Recurso adicional​