Configure os limites de taxa para o endpoint do AI Gateway.
Beta
Este recurso está em versão Beta. Os administradores da conta podem controlar o acesso a este recurso na página de pré-visualizações do console account . Veja as prévias do Gerenciador Databricks.
Esta página descreve como configurar limites de taxa para o endpoint AI Gateway (Beta) . Os limites de taxa permitem impor limites de consumo em um endpoint para gerenciar a capacidade e os custos.
Requisitos
- A versão beta (prévia) AI Gateway está ativada para sua account. Veja as prévias do Gerenciador Databricks.
- Um workspace Databricks em uma região compatível comAI Gateway (Beta).
Configure limites de taxa em um endpoint.
Você pode gerenciar e especificar o número de consultas por minuto (QPM) ou tokens por minuto (TPM) que seu endpoint pode suportar.
Para ativar os limites de taxa, selecione " Limites de taxa" ao configurar o endpoint do seu AI Gateway. Você pode definir limites de taxa baseados em consultas e em tokens nos seguintes níveis:
campo | Descrição |
|---|---|
Endpoint | Especifique o QPM ou TPM máximo que todo o endpoint pode processar. Esse limite se aplica a todo o tráfego, independentemente do usuário. |
Usuário (padrão) | Especifique um limite de taxa default por usuário que se aplica a todos os usuários do endpoint, a menos que um limite de taxa personalizado mais específico seja definido. |
Limites de taxa personalizados | É possível especificar limites de taxa personalizados para:
|
Detalhes e comportamento
- Os limites de taxa aplicam-se apenas aos usuários com permissão para consultar o endpoint.
- Por default, não há limites de taxa configurados para usuários ou para o endpoint.
- O limite de taxa endpoint é um máximo global. Caso esse limite seja excedido, todas as solicitações para o endpoint serão bloqueadas, independentemente de quaisquer limites de taxa específicos do usuário ou do grupo.
- Se um endpoint, usuário ou entidade de serviço do Databricks tiver um limite de taxa baseado em consultas e um limite de taxa baseado em tokens especificados, o limite de taxa mais restritivo será aplicado.
- Os limites de taxa personalizados substituem o limite de taxa do usuário (padrão) .
- Se um usuário estiver sujeito tanto a um limite específico do usuário quanto a um limite específico do grupo, o limite específico do usuário será aplicado.
- Se um usuário pertencer a vários grupos de usuários com diferentes limites de taxa QPM ou TPM, a taxa de transferência desse usuário será limitada caso ele exceda todos os limites de taxa QPM ou todos os limites de taxa TPM de seus respectivos grupos de usuários.
comportamento do limitador de taxa
Quando o limite de requisições é excedido, o endpoint retorna uma resposta HTTP 429 (Muitas Requisições). Os clientes devem implementar lógica de repetição com recuo exponencial.
O limitador de taxa foi projetado para baixa latência, o que significa que os seguintes comportamentos são esperados:
- As solicitações concorrentes não são verificadas antecipadamente. O sistema registra o uso após o envio de uma resposta; portanto, se várias solicitações chegarem ao mesmo tempo, todas podem ser processadas antes que o uso seja contabilizado. Solicitações posteriores são rejeitadas até que a capacidade seja recuperada. Na prática, você poderá observar picos de tráfego seguidos por breves pausas, em um padrão repetitivo.
- Os limites são aplicados de forma independente em todas as instâncias de serviço, portanto, podem ocorrer picos curtos ligeiramente acima do limite configurado, especialmente logo após a criação ou atualização de um endpoint.
Em um período de tempo mais longo, a taxa média de solicitações converge para o limite configurado.
Limitações
- Você pode especificar um máximo de 20 limites de taxa por endpoint.
- Você pode especificar um máximo de 5 limites de taxa específicos para cada grupo e endpoint.