Pular para o conteúdo principal

escala endpoint Taxa de transferência com alto QPS

info

Visualização

Este recurso está em Pré-visualização Pública.

Por default, os endpoints padrão suportam de 20 a 200 QPS, dependendo do tamanho do índice. Aplicações em tempo real, como barras de pesquisa, sistemas de recomendação e correspondência de entidades, geralmente exigem de 100 a mais de 1000 QPS (consultas por segundo). Somente no endpoint padrão você pode definir uma meta de QPS. Databricks provisiona a infraestrutura para melhor corresponder ao nível de Taxa de transferência (melhor esforço, não garantido).

importante

Definir uma meta de provisionamento de QPS implica em capacidade adicional, o que aumenta o custo do endpoint. Você será cobrado por essa capacidade adicional independentemente do tráfego de consultas real. Para parar de incorrer nessas cobranças, redefina o endpoint para a configuração default usando target_qps=-1. A escalabilidade da taxa de transferência é feita da melhor maneira possível e não é garantida durante a Pré-visualização Pública.

Use QPS alto quando:

  • Sua aplicação requer mais de 50 QPS de Taxa de transferência sustentada.
  • Você recebe erros 429 (Muitas solicitações) sob carga normal.
  • A latência piora à medida que o tráfego aumenta, mesmo quando a utilização média parece baixa.

Requisitos

  • O QPS elevado está disponível apenas para endpoints padrão. Pontos de extremidade otimizados para armazenamento não são suportados.
  • A autenticação OAuth é necessária para endpoints que processam mais de 70 a 100 QPS (consultas por segundo). access tokens pessoal (PATs) têm uma taxa de transferência limitada a 70–100 QPS. Consulte Usar entidade de serviço com tokens OAuth.

Configurar QPS de destino

Defina uma meta de QPS ao criar um novo endpoint ou atualizar um existente. A capacidade adicional necessária para melhor corresponder à taxa de transferência alvo é provisionamento automaticamente. Na versão de pré-visualização pública, o escalonamento da Taxa de Transferência é feito da melhor forma possível e não é garantido: o QPS real depende do tamanho do seu índice, da dimensionalidade do vetor, da complexidade da consulta e do uso de filtros.

Ao criar um novo endpoint:

  1. Na barra lateral esquerda, clique em calcular .

  2. Clique na tab Pesquisa de vetores e clique em Criar endpoint .

    Criar compute de pesquisa vetorial.

  3. Em Configurações Avançadas , insira o valor de QPS alvo .

    Criar caixa de diálogo endpoint de pesquisa vetorial.

Ao atualizar um endpoint existente:

  1. Acesse a página de detalhes do endpoint.

  2. No painel direito, clique no ícone de lápis.Ícone de lápis. próximo ao Target QPS .

    Editar QPS alvo.

  3. Insira o novo valor e clique em Salvar .

    Insira o valor de QPS desejado.

Como o escalonamento se aplica

Após definir uma meta de QPS (consultas por segundo), a capacidade necessária é provisionada automaticamente. O novo nível de Taxa de transferência aplica-se após a conclusão do provisionamento; não é necessário sincronizar os índices para que a alteração seja acionada.

nota

A tentativa de atualizar o QPS alvo enquanto uma operação de escalonamento está em andamento retorna um erro RESOURCE_CONFLICT . Aguarde a conclusão das operações atuais antes de tentar novamente.

Limitações

  • Sem dimensionamento automático : você deve definir manualmente o QPS alvo com base no tráfego esperado. Se o tráfego exceder o nível de provisionamento, ocorrerão erros 429. Consulte o Plano para picos de consultas.
  • Apenas endpoint padrão : o endpoint otimizado para armazenamento não suporta target_qps.