Dimensionar a taxa de transferência do endpoint com alta QPS
Visualização
Esse recurso está em Prévia Pública.
Por default, endpoints padrão suportam 20–200 QPS dependendo do tamanho do índice. Aplicações em tempo real, como barras de pesquisa, sistemas de recomendação e correspondência de entidades, frequentemente exigem 100 a 1.000+ QPS. Somente em endpoints padrão, é possível definir um QPS alvo. A Databricks provisiona a infraestrutura para melhor corresponder àquele nível de taxa de transferência (melhor esforço, não garantido).
Configurar um alvo de QPS prevê capacidade adicional, o que aumenta o custo do endpoint. Você é cobrado por esta capacidade adicional independentemente do tráfego de queries real. O escalonamento da taxa de transferência é de melhor esforço e não é garantido durante a Prévia Pública.
Usar alta QPS quando:
- Seu aplicativo requer mais de 50 QPS de taxa de transferência sustentada.
- Você recebe erros 429 (excesso de solicitações) sob carga normal.
- A latência é comprometida com o aumento do tráfego, mesmo quando a utilização média aparenta ser baixa.
Requisitos
- Alta QPS está disponível apenas para endpoints padrão. Endpoints otimizados para armazenamento não são suportados.
- Use a autenticação de entidade de serviço (OAuth) para cargas de trabalho de produção com alto QPS. O tráfego da entidade de serviço é roteado por redes otimizadas para desempenho, criadas para cargas de trabalho de QPS alto. Os access tokens pessoais (PATs) passam por redes limitadas a algumas dezenas de QPS — adequado para prototipação, não para produção. Consulte Usar entidades de serviço com tokens OAuth.
Configurar QPS alvo
Defina um QPS alvo ao criar um novo endpoint ou ao atualizar um existente. A capacidade adicional necessária para melhor corresponder à taxa de transferência de destino é provisionada automaticamente. Na Pré-visualização Pública, o dimensionamento da taxa de transferência é baseado no melhor esforço e não é garantido: o QPS real depende do tamanho do seu índice, da dimensionalidade do vetor, da complexidade da consulta e do uso do filtro.
- Databricks UI
- Python SDK
- REST API
Ao criar um novo endpoint:
-
Na barra lateral esquerda, clique em Compute .
-
Clique na tab Pesquisa de IA e clique em Criar endpoint .

-
Em Configurações avançadas , insira o valor de QPS alvo .

Ao atualizar um endpoint existente:
-
Acesse a página de detalhes do endpoint.
-
No painel direito, clique no ícone de lápis
ao lado de **QPS alvo**.

-
Insira o novo valor e clique em Salvar .
from databricks.vector_search.client import VectorSearchClient
client = VectorSearchClient()
# Create a new endpoint with target QPS
endpoint = client.create_endpoint(
name="my-high-qps-endpoint",
endpoint_type="STANDARD",
target_qps=500,
)
# Update an existing endpoint's target QPS
response = client.update_endpoint(name="my-endpoint", target_qps=500)
# Check scaling status
scaling_info = response.get("endpoint", {}).get("scaling_info", {})
print(f"Requested target QPS: {scaling_info.get('requested_target_qps')}")
print(f"State: {scaling_info.get('state')}")
# State is "SCALING_CHANGE_IN_PROGRESS" while capacity is being provisioned,
# then transitions to "SCALING_CHANGE_APPLIED"
Criar um endpoint com QPS alvo
POST /api/2.0/vector-search/endpoints
{
"name": "my-high-qps-endpoint",
"endpoint_type": "STANDARD",
"target_qps": 500
}
Atualizar QPS alvo em um endpoint existente:
PATCH /api/2.0/vector-search/endpoints/<ENDPOINT_NAME>
{
"target_qps": 500
}
Verificar status de escalonamento:
GET /api/2.0/vector-search/endpoints/<ENDPOINT_NAME>
O campo scaling_info da resposta mostra o requested_target_qps e o dimensionamento state. O estado é SCALING_CHANGE_IN_PROGRESS enquanto a capacidade está sendo provisionada, e depois transiciona para SCALING_CHANGE_APPLIED.
Como o dimensionamento se aplica
Após definir um QPS de destino, a capacidade necessária é provisionada automaticamente. O novo nível de Taxa de transferência se aplica após o provisionamento ser concluído; não é necessário sincronizar os índices para acionar a alteração.
A tentativa de atualizar o QPS alvo enquanto uma operação de escalonamento está em andamento retorna um erro RESOURCE_CONFLICT. Aguarde a conclusão da operação atual antes de tentar novamente.
Limitações
- No autoscale : é preciso definir o QPS alvo manualmente com base no tráfego esperado. Se o tráfego exceder o nível de provisionamento, erros 429 ocorrerão. Ver Plano para picos de consulta
- Somente endpoints padrão: endpoints otimizados para armazenamento não
target_qpssuportam.