Configure a divisão de tráfego para o endpoint do Unity AI Gateway.
Beta
Este recurso está em versão Beta. Os administradores da conta podem controlar o acesso a este recurso na página de pré-visualizações do console account . Veja as prévias do Gerenciador Databricks.
Esta página descreve como configurar a divisão de tráfego para o endpoint do Unity AI Gateway . Utilize a divisão de tráfego para distribuir as solicitações entre vários backends de modelos por trás de um único endpoint do Unity AI Gateway, permitindo a implementação gradual de novos modelos, a execução de testes A/B e a distribuição da carga entre os provedores.
Requisitos
- A pré-visualização do Unity AI Gateway foi ativada para sua account. Veja as prévias do Gerenciador Databricks.
- Um workspace Databricks em uma região compatível com o Unity AI Gateway.
Configure a divisão de tráfego na interface do usuário.
-
No seu workspace Databricks , clique em AI Gateway na barra lateral e selecione o endpoint que deseja editar.
-
Na seção Destinos , clique em Adicionar outro modelo para adicionar uma entrada de destino para cada backend de modelo que você deseja incluir na divisão.
-
Para cada destino, defina a porcentagem de tráfego para a parcela de tráfego que você deseja que esse modelo receba.
- As porcentagens devem somar 100%.
-
O sistema salva as alterações automaticamente quando a soma de todas as alocações atinge 100%.
O Unity AI Gateway encaminha aleatoriamente cada solicitação entre os destinos configurados, de acordo com as porcentagens de tráfego especificadas. Com o tempo, a parcela de tráfego observada para cada destino converge para as porcentagens configuradas.
Interação com o recurso de fallback
Você pode usar o direcionamento de tráfego e mecanismos de fallback em conjunto, mas eles se aplicam em diferentes estágios do processamento de requisições:
- A divisão de tráfego determina o destino inicial (primário) de uma solicitação.
- O fallback define como o sistema tenta novamente a solicitação caso a tentativa principal falhe.
Ao configurar tanto a divisão de tráfego quanto o fallback:
- Para cada solicitação recebida, a divisão de tráfego seleciona um destino do conjunto configurado, com base em pesos. Essa opção se torna o destino principal dessa solicitação.
- O sistema envia a solicitação para o destino principal.
- Se a solicitação falhar (por exemplo, devido a um erro 429 ou 5xx), o sistema tentará novamente a solicitação nos destinos fallback configurados. Ele os testa exatamente na ordem especificada.
- O sistema tenta alternativas sequencialmente até que uma seja bem-sucedida ou até que todas as opções fallback sejam esgotadas.
Os mecanismos de contingência são independentes da divisão de tráfego. Após o sistema selecionar um destino principal, ele não reaplica a divisão de tráfego durante as novas tentativas.

Observabilidade
As decisões de roteamento para divisão de tráfego e fallback são registradas no campo routing_information da tabela de sistema system.ai_gateway.usage . Consulte esta tabela para verificar se as solicitações estão sendo roteadas de acordo com as porcentagens configuradas e a ordem de fallback.
SELECT
destination_name AS destination,
COUNT(*) AS request_count,
ROUND(COUNT(*) * 100.0 / SUM(COUNT(*)) OVER (), 1) AS actual_pct
FROM system.ai_gateway.usage
WHERE
endpoint_name = 'your-endpoint-name'
AND event_time >= CURRENT_TIMESTAMP - INTERVAL 7 DAY
GROUP BY destination_name
ORDER BY actual_pct DESC;
Limitações
- Você pode configurar a divisão de tráfego entre até 5 destinos.
- Não é possível configurar a divisão de tráfego em destinos fallback .