Pular para o conteúdo principal

Configure os limites de taxa para o endpoint do AI Gateway.

info

Beta

Este recurso está em versão Beta. Os administradores da conta podem controlar o acesso a este recurso na página de pré-visualizações do console account . Veja as prévias do Gerenciador Databricks.

Esta página descreve como configurar limites de taxa para o endpoint AI Gateway (Beta) . Os limites de taxa permitem impor limites de consumo em um endpoint para gerenciar a capacidade e os custos.

Requisitos

Configure limites de taxa em um endpoint.

Você pode gerenciar e especificar o número de consultas por minuto (QPM) ou tokens por minuto (TPM) que seu endpoint pode suportar.

Para ativar os limites de taxa, selecione " Limites de taxa" ao configurar o endpoint do seu AI Gateway. Você pode definir limites de taxa baseados em consultas e em tokens nos seguintes níveis:

campo

Descrição

Endpoint

Especifique o QPM ou TPM máximo que todo o endpoint pode processar. Esse limite se aplica a todo o tráfego, independentemente do usuário.

Usuário (padrão)

Especifique um limite de taxa default por usuário que se aplica a todos os usuários do endpoint, a menos que um limite de taxa personalizado mais específico seja definido.

Limites de taxa personalizados

É possível especificar limites de taxa personalizados para:

  • Usuários individuais ou entidade de serviço : Estes têm prioridade sobre os limites de taxa personalizados para grupos de usuários.
  • Grupos de usuários : Este limite é um limite de taxa compartilhado por todos os membros do grupo.

Detalhes e comportamento

  • Os limites de taxa aplicam-se apenas aos usuários com permissão para consultar o endpoint.
  • Por default, não há limites de taxa configurados para usuários ou para o endpoint.
  • O limite de taxa endpoint é um máximo global. Caso esse limite seja excedido, todas as solicitações para o endpoint serão bloqueadas, independentemente de quaisquer limites de taxa específicos do usuário ou do grupo.
  • Se um endpoint, usuário ou entidade de serviço do Databricks tiver um limite de taxa baseado em consultas e um limite de taxa baseado em tokens especificados, o limite de taxa mais restritivo será aplicado.
  • Os limites de taxa personalizados substituem o limite de taxa do usuário (padrão) .
    • Se um usuário estiver sujeito tanto a um limite específico do usuário quanto a um limite específico do grupo, o limite específico do usuário será aplicado.
    • Se um usuário pertencer a vários grupos de usuários com diferentes limites de taxa QPM ou TPM, a taxa de transferência desse usuário será limitada caso ele exceda todos os limites de taxa QPM ou todos os limites de taxa TPM de seus respectivos grupos de usuários.

Limitações

  • Você pode especificar um máximo de 20 limites de taxa por endpoint.
  • Você pode especificar um máximo de 5 limites de taxa específicos para cada grupo e endpoint.

Próximos passos