Configure os limites de taxa para o endpoint do AI Gateway.
Beta
Este recurso está em versão Beta. Os administradores da conta podem controlar o acesso a este recurso na página de pré-visualizações do console account . Veja as prévias do Gerenciador Databricks.
Esta página descreve como configurar limites de taxa para o endpoint AI Gateway (Beta) . Os limites de taxa permitem impor limites de consumo em um endpoint para gerenciar a capacidade e os custos.
Requisitos
- A versão beta (prévia) AI Gateway está ativada para sua account. Veja as prévias do Gerenciador Databricks.
- Um workspace Databricks em uma região compatível comAI Gateway (Beta).
Configure limites de taxa em um endpoint.
Você pode gerenciar e especificar o número de consultas por minuto (QPM) ou tokens por minuto (TPM) que seu endpoint pode suportar.
Para ativar os limites de taxa, selecione " Limites de taxa" ao configurar o endpoint do seu AI Gateway. Você pode definir limites de taxa baseados em consultas e em tokens nos seguintes níveis:
campo | Descrição |
|---|---|
Endpoint | Especifique o QPM ou TPM máximo que todo o endpoint pode processar. Esse limite se aplica a todo o tráfego, independentemente do usuário. |
Usuário (padrão) | Especifique um limite de taxa default por usuário que se aplica a todos os usuários do endpoint, a menos que um limite de taxa personalizado mais específico seja definido. |
Limites de taxa personalizados | É possível especificar limites de taxa personalizados para:
|
Detalhes e comportamento
- Os limites de taxa aplicam-se apenas aos usuários com permissão para consultar o endpoint.
- Por default, não há limites de taxa configurados para usuários ou para o endpoint.
- O limite de taxa endpoint é um máximo global. Caso esse limite seja excedido, todas as solicitações para o endpoint serão bloqueadas, independentemente de quaisquer limites de taxa específicos do usuário ou do grupo.
- Se um endpoint, usuário ou entidade de serviço do Databricks tiver um limite de taxa baseado em consultas e um limite de taxa baseado em tokens especificados, o limite de taxa mais restritivo será aplicado.
- Os limites de taxa personalizados substituem o limite de taxa do usuário (padrão) .
- Se um usuário estiver sujeito tanto a um limite específico do usuário quanto a um limite específico do grupo, o limite específico do usuário será aplicado.
- Se um usuário pertencer a vários grupos de usuários com diferentes limites de taxa QPM ou TPM, a taxa de transferência desse usuário será limitada caso ele exceda todos os limites de taxa QPM ou todos os limites de taxa TPM de seus respectivos grupos de usuários.
Limitações
- Você pode especificar um máximo de 20 limites de taxa por endpoint.
- Você pode especificar um máximo de 5 limites de taxa específicos para cada grupo e endpoint.