Configure a divisão de tráfego e fallbacks para serviços de modelo no Unity AI Gateway.
Beta
Este recurso está em Beta. Administradores de conta podem controlar o acesso a este recurso na página Prévias do console da conta. Consulte Gerenciar prévias do Databricks.
Esta página descreve como configurar a divisão de tráfego e fallbacks para serviços de modelo do Unity AI Gateway. A divisão de tráfego distribui solicitações entre vários back-ends de modelo por trás de um único serviço de modelo. Use-o para lançar gradualmente novos modelos, realizar a execução de testes A/B e distribuir a carga entre provedores.
Fallbacks adicionam resiliência a agentes e serviços de modelo por meio de failovers redundantes, aumentando a disponibilidade geral e a independência do modelo.
Requisitos
- Prévia do Unity AI Gateway ativada para sua account. Consulte Gerenciar prévias do Databricks.
- Um workspace Databricks em uma região compatível com o Unity AI Gateway.
Configurar a divisão de tráfego na interface do usuário
-
No seu workspace do Databricks, clique em AI Gateway na barra lateral e selecione o serviço de modelo que deseja editar.
-
Na seção **Destinos**, clique em **Adicione outro modelo** para adicionar uma entrada de destino para cada backend de modelo que você deseja incluir na divisão.
-
Para cada destino, defina a porcentagem de tráfego para a participação de tráfego que você deseja que esse modelo receba.
- As porcentagens devem somar 100%.
-
O sistema salva as alterações automaticamente quando todas as alocações somam 100%.
O Unity AI Gateway encaminha aleatoriamente cada solicitação para os destinos configurados de acordo com as porcentagens de tráfego especificadas. Com o tempo, a parcela observada do tráfego para cada destino converge para as porcentagens configuradas.
Interação com fallbacks
É possível usar a divisão de tráfego e fallbacks em conjunto, mas eles se aplicam em diferentes estágios do tratamento de solicitações:
- A divisão de tráfego determina o destino inicial (primário) de uma solicitação.
- O fallback define como o sistema tenta novamente a solicitação se a tentativa principal falhar.
Ao configurar a divisão de tráfego e fallbacks:
- Para cada solicitação recebida, a divisão de tráfego seleciona um destino do conjunto configurado, com base nos pesos. Esta seleção torna-se o destino primário para essa solicitação.
- O sistema envia a solicitação para o destino principal.
- Se a solicitação falhar (por exemplo, devido a um erro 429 ou 5xx), o sistema tentará novamente a solicitação nos destinos de fallback configurados. Ele os tenta na ordem exata especificada.
- O sistema tenta fallbacks sequencialmente até que um seja bem-sucedido ou esgote todas as opções de fallback.
Fallbacks são independentes da divisão de tráfego. Depois que o sistema seleciona um destino principal, ele não reaplica a divisão de tráfego durante as novas tentativas.

Observabilidade
Decisões de roteamento para divisões de tráfego e fallbacks são registradas no campo routing_information na system table system.ai_gateway.usage. Consulte esta tabela para verificar se as requisições estão sendo roteadas de acordo com suas porcentagens configuradas e ordem de fallback.
SELECT
destination_name AS destination,
COUNT(*) AS request_count,
ROUND(COUNT(*) * 100.0 / SUM(COUNT(*)) OVER (), 1) AS actual_pct
FROM system.ai_gateway.usage
WHERE
endpoint_name = 'your-endpoint-name'
AND event_time >= CURRENT_TIMESTAMP - INTERVAL 7 DAY
GROUP BY destination_name
ORDER BY actual_pct DESC;
Limitações
- Você pode configurar a divisão de tráfego em um máximo de 5 destinos.
- Não é possível configurar a divisão de tráfego em destinos de fallback.