escala endpoint Taxa de transferência com alto QPS
Visualização
Este recurso está em Pré-visualização Pública.
Por default, os endpoints padrão suportam de 20 a 200 QPS, dependendo do tamanho do índice. Aplicações em tempo real, como barras de pesquisa, sistemas de recomendação e correspondência de entidades, geralmente exigem de 100 a mais de 1000 QPS (consultas por segundo). Somente no endpoint padrão você pode definir uma meta de QPS. Databricks provisiona a infraestrutura para melhor corresponder ao nível de Taxa de transferência (melhor esforço, não garantido).
Definir uma meta de provisionamento de QPS implica em capacidade adicional, o que aumenta o custo do endpoint. Você será cobrado por essa capacidade adicional independentemente do tráfego de consultas real. Para parar de incorrer nessas cobranças, redefina o endpoint para a configuração default usando target_qps=-1. A escalabilidade da taxa de transferência é feita da melhor maneira possível e não é garantida durante a Pré-visualização Pública.
Use QPS alto quando:
- Sua aplicação requer mais de 50 QPS de Taxa de transferência sustentada.
- Você recebe erros 429 (Muitas solicitações) sob carga normal.
- A latência piora à medida que o tráfego aumenta, mesmo quando a utilização média parece baixa.
Requisitos
- O QPS elevado está disponível apenas para endpoints padrão. Pontos de extremidade otimizados para armazenamento não são suportados.
- A autenticação OAuth é necessária para endpoints que processam mais de 70 a 100 QPS (consultas por segundo). access tokens pessoal (PATs) têm uma taxa de transferência limitada a 70–100 QPS. Consulte Usar entidade de serviço com tokens OAuth.
Configurar QPS de destino
Defina uma meta de QPS ao criar um novo endpoint ou atualizar um existente. A capacidade adicional necessária para melhor corresponder à taxa de transferência alvo é provisionamento automaticamente. Na versão de pré-visualização pública, o escalonamento da Taxa de Transferência é feito da melhor forma possível e não é garantido: o QPS real depende do tamanho do seu índice, da dimensionalidade do vetor, da complexidade da consulta e do uso de filtros.
- Databricks UI
- Python SDK
- REST API
Ao criar um novo endpoint:
-
Na barra lateral esquerda, clique em calcular .
-
Clique na tab Pesquisa de vetores e clique em Criar endpoint .

-
Em Configurações Avançadas , insira o valor de QPS alvo .

Ao atualizar um endpoint existente:
-
Acesse a página de detalhes do endpoint.
-
No painel direito, clique no ícone de lápis.
próximo ao Target QPS .

-
Insira o novo valor e clique em Salvar .
from databricks.vector_search.client import VectorSearchClient, TARGET_QPS_RESET_TO_DEFAULT
client = VectorSearchClient()
# Create a new endpoint with target QPS
endpoint = client.create_endpoint(
name="my-high-qps-endpoint",
endpoint_type="STANDARD",
target_qps=500,
)
# Update an existing endpoint's target QPS
response = client.update_endpoint(name="my-endpoint", target_qps=500)
# Check scaling status
scaling_info = response.get("endpoint", {}).get("scaling_info", {})
print(f"Requested target QPS: {scaling_info.get('requested_target_qps')}")
print(f"State: {scaling_info.get('state')}")
# State is "SCALING_CHANGE_IN_PROGRESS" while capacity is being provisioned,
# then transitions to "SCALING_CHANGE_APPLIED"
# Reset to default (remove high QPS configuration)
client.update_endpoint(name="my-endpoint", target_qps=TARGET_QPS_RESET_TO_DEFAULT)
Crie um endpoint com QPS alvo:
POST /api/2.0/vector-search/endpoints
{
"name": "my-high-qps-endpoint",
"endpoint_type": "STANDARD",
"target_qps": 500
}
Atualizar o QPS alvo em um endpoint existente:
PATCH /api/2.0/vector-search/endpoints/<ENDPOINT_NAME>
{
"target_qps": 500
}
Verificar o estado de escala:
GET /api/2.0/vector-search/endpoints/<ENDPOINT_NAME>
O campo de resposta scaling_info mostra o requested_target_qps e a escala state. O estado é SCALING_CHANGE_IN_PROGRESS enquanto a capacidade está sendo provisionada, depois transita para SCALING_CHANGE_APPLIED.
Reset para o default (remover QPS alto):
PATCH /api/2.0/vector-search/endpoints/<ENDPOINT_NAME>
{
"target_qps": -1
}
Como o escalonamento se aplica
Após definir uma meta de QPS (consultas por segundo), a capacidade necessária é provisionada automaticamente. O novo nível de Taxa de transferência aplica-se após a conclusão do provisionamento; não é necessário sincronizar os índices para que a alteração seja acionada.
A tentativa de atualizar o QPS alvo enquanto uma operação de escalonamento está em andamento retorna um erro RESOURCE_CONFLICT . Aguarde a conclusão das operações atuais antes de tentar novamente.
Limitações
- Sem dimensionamento automático : você deve definir manualmente o QPS alvo com base no tráfego esperado. Se o tráfego exceder o nível de provisionamento, ocorrerão erros 429. Consulte o Plano para picos de consultas.
- Apenas endpoint padrão : o endpoint otimizado para armazenamento não suporta
target_qps.