Configure limites de taxa para serviços de AI usando o Gateway de AI do Unity.
Beta
Este recurso está em Beta. Administradores de conta podem controlar o acesso a este recurso na página Prévias do console da conta. Consulte Gerenciar prévias do Databricks.
Esta página descreve como configurar limites de taxa para serviço de AI do Unity AI Gateway. Os limites de taxa permitem que o usuário imponha limites de consumo em um serviço de modelo ou serviço MCP para gerenciar capacidade e custos.
Requisitos
- Prévia do Unity AI Gateway ativada para sua account. Consulte Gerenciar prévias do Databricks.
- Um workspace Databricks em uma região compatível com o Unity AI Gateway.
Configure limites de taxa em um serviço de modelo ou serviço MCP
É possível definir limites de taxa com base em solicitações por minuto (QPM) ou tokens por minuto (TPM), dependendo do tipo de serviço:
- Serviços de modelo : Defina limites de solicitações por minuto (QPM) e tokens por minuto (TPM).
- Serviços MCP : Definir limites de solicitações por minuto (QPM). Limites baseados em tokens não se aplicam a serviços MCP.
Para habilitar os limites de taxa, selecione Limites de taxa ao configurar seu serviço de modelo ou serviço MCP. Você pode definir limites de taxa nos seguintes níveis:
campo | Descrição |
|---|---|
Serviço | Especifique os QPM ou TPM máximos que todo o serviço pode manipular. Esse limite aplica-se a todo o tráfego, independentemente do usuário. |
Usuário (Default) | Especifique um limite de taxa default por usuário que se aplique a todos os usuários do serviço, a menos que um limite de taxa mais específico e personalizado seja definido. |
Limites de taxa personalizados | Limites de taxa personalizados podem ser especificados para:
|
Detalhes e comportamento
- Os limites de taxa aplicam-se somente aos usuários com permissão para consultar o serviço.
- Por default, não há limites de taxa configurados para usuários ou para o serviço.
- O limite de taxa do serviço é um máximo global. Se esse limite for excedido, todas as solicitações para o serviço serão bloqueadas, independentemente de quaisquer limites de taxa específicos do usuário ou do grupo.
- Se um serviço, usuário ou entidade de serviço do Databricks tiver um limite de taxa baseado em solicitação e um limite de taxa baseado em tokens especificados, o limite de taxa mais restritivo será aplicado.
- Os limites de taxa personalizados substituem o limite de taxa do usuário (padrão) .
- Se um usuário pertencer tanto a um limite específico do usuário quanto a um limite específico do grupo, o limite específico do usuário será aplicado.
- Se um usuário pertencer a vários grupos de usuários com diferentes limites de taxa de QPM ou TPM, o usuário terá sua taxa limitada se exceder todos os limites de taxa de QPM ou todos os limites de taxa de TPM de seus grupos de usuários.
Comportamento do limitador de taxa
Quando um limite de taxa é excedido, o serviço retorna uma resposta HTTP 429 (Too Many Requests). Os clientes devem implementar a lógica de repetição com backoff exponencial.
O limitador de taxa é projetado para baixa latência, o que significa que os seguintes comportamentos são esperados:
- As solicitações concorrentes não são verificadas com antecedência. O sistema registra o uso depois que uma resposta é enviada, então, se várias solicitações chegarem ao mesmo tempo, todas podem ser processadas antes que o uso seja contabilizado. As solicitações posteriores são então rejeitadas até que a capacidade se recupere. Na prática, é possível observar picos de tráfego seguidos por breves pausas em um padrão repetitivo.
- Limites são impostos independentemente em todas as instâncias de serviço, portanto, picos ligeiramente acima do limite configurado podem ocorrer, especialmente logo após um serviço ser criado ou atualizado.
Em uma janela de tempo mais longa, a taxa média de solicitações converge para o limite configurado.
Limitações
- É possível especificar um máximo de 20 limites de taxa por serviço.
- É possível especificar um máximo de 5 limites de taxa específicos por grupo por serviço.