Pular para o conteúdo principal

escala endpoint Taxa de transferência com alto QPS (Beta)

info

Beta

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.

Por default, os endpoints padrão suportam de 20 a 200 QPS, dependendo do tamanho do índice. Aplicações em tempo real, como barras de pesquisa, sistemas de recomendação e correspondência de entidades, geralmente exigem de 100 a mais de 1000 QPS (consultas por segundo). Somente no endpoint padrão você pode definir um QPS mínimo. Databricks fornece a infraestrutura para suportar esse nível de taxa de transferência quando os índices são criados ou sincronizados.

importante

Definir um provisionamento mínimo de QPS implica em capacidade adicional, o que aumenta o custo do endpoint. Você será cobrado por essa capacidade adicional independentemente do tráfego de consultas real. Para parar de incorrer nessas cobranças, redefina o endpoint para a configuração default usando min_qps=-1. A escalabilidade da taxa de transferência é feita da melhor maneira possível e não é garantida durante a versão Beta.

Use QPS alto quando:

  • Sua aplicação requer mais de 50 QPS de Taxa de transferência sustentada.
  • Você recebe erros 429 (Muitas solicitações) sob carga normal.
  • A latência piora à medida que o tráfego aumenta, mesmo quando a utilização média parece baixa.

Requisitos

  • O QPS elevado está disponível apenas para endpoints padrão. Pontos de extremidade otimizados para armazenamento não são suportados.
  • A autenticação OAuth é necessária para endpoints que processam mais de 70 a 100 QPS (consultas por segundo). access tokens pessoal (PATs) têm uma taxa de transferência limitada a 70–100 QPS. Consulte Usar entidade de serviço com tokens OAuth.

Configure o QPS mínimo.

Defina um QPS mínimo ao criar um novo endpoint ou atualizar um existente. A capacidade adicional necessária para atingir a taxa de transferência desejada é calculada automaticamente na próxima vez que um índice no endpoint for criado ou sincronizado. Na versão Beta, o escalonamento da Taxa de Transferência é feito da melhor maneira possível e não é garantido: o QPS real depende do tamanho do seu índice, da dimensionalidade do vetor, da complexidade da consulta e do uso de filtros.

Ao criar um novo endpoint:

  1. Na barra lateral esquerda, clique em calcular .
  2. Clique na tab Pesquisa Vetorial e clique em Criar .
  3. Em Configurações Avançadas , insira o valor mínimo de QPS .

Ao atualizar um endpoint existente:

  1. Acesse a página de detalhes do endpoint.
  2. Localize o campo QPS mínimo no painel direito e clique no ícone de lápis ao lado do valor atual.
  3. Insira o novo valor e clique em Salvar .

Após alterar o QPS mínimo, sincronize seus índices para aplicar a nova configuração.

Como o escalonamento se aplica

Após definir um QPS mínimo, a capacidade necessária será provisionada na próxima vez que um índice for criado ou sincronizado nesse endpoint . Para aplicar a alteração imediatamente, execute uma sincronização em cada índice hospedado no endpoint.

nota

A tentativa de atualizar o QPS mínimo enquanto uma operação de escalonamento está em andamento retorna um erro RESOURCE_CONFLICT . Aguarde a conclusão das operações atuais antes de tentar novamente.

Limitações

  • Sem dimensionamento automático : você deve definir manualmente o QPS mínimo com base no tráfego esperado. Se o tráfego exceder o nível de provisionamento, ocorrerão erros 429. Consulte o Plano para picos de consultas.
  • Apenas endpoint padrão : o endpoint otimizado para armazenamento não suporta min_qps.