Configure a divisão de tráfego e fallbacks para serviços de modelo no Unity AI Gateway.

info

Beta

Este recurso está em Beta. Administradores de conta podem controlar o acesso a este recurso na página Prévias do console da conta. Consulte Gerenciar prévias do Databricks.

Esta página descreve como configurar a divisão de tráfego e fallbacks para serviços de modelo do Unity AI Gateway. A divisão de tráfego distribui solicitações entre vários back-ends de modelo por trás de um único serviço de modelo. Use-o para lançar gradualmente novos modelos, realizar a execução de testes A/B e distribuir a carga entre provedores.

Fallbacks adicionam resiliência a agentes e serviços de modelo por meio de failovers redundantes, aumentando a disponibilidade geral e a independência do modelo.

A afinidade de sessão mantém as solicitações da mesma sessão no mesmo destino.

Requisitos

Prévia do Unity AI Gateway ativada para sua account. Consulte Gerenciar prévias do Databricks.
Um workspace Databricks em uma região compatível com o Unity AI Gateway.

Configurar a divisão de tráfego na interface do usuário

No seu workspace do Databricks, clique em AI Gateway na barra lateral e selecione o serviço de modelo que deseja editar.
Na seção **Destinos**, clique em **Adicione outro modelo** para adicionar uma entrada de destino para cada backend de modelo que você deseja incluir na divisão.
Para cada destino, defina a porcentagem de tráfego para a participação de tráfego que você deseja que esse modelo receba.
- As porcentagens devem somar 100%.
O sistema salva as alterações automaticamente quando todas as alocações somam 100%.

O Unity AI Gateway encaminha aleatoriamente cada solicitação para os destinos configurados de acordo com as porcentagens de tráfego especificadas. Com o tempo, a parcela observada do tráfego para cada destino converge para as porcentagens configuradas.

Afinidade de sessão

Quando a divisão de tráfego é configurada, a Databricks habilita automaticamente a afinidade de sessão, que roteia as solicitações da mesma sessão para o mesmo destino. Se uma determinada solicitação é fixada, depende do cliente: solicitações que incluem um cabeçalho de identificação de sessão são roteadas pela sessão, enquanto solicitações sem um seguem a divisão de tráfego ponderada.

Em vez de aplicar a divisão de tráfego ponderada a cada solicitação, o Unity AI Gateway fixa cada sessão a um único destino, aproveitando o cache de prefixo e produzindo resultados previsíveis. As sessões são identificadas por cabeçalhos padrão para a maioria dos clientes LLM e agentes de codificação — um cliente agrupa suas solicitações em uma sessão enviando o mesmo valor de cabeçalho em cada uma, e essas solicitações são roteadas para o mesmo destino.

Interação com fallbacks

É possível usar a divisão de tráfego e fallbacks em conjunto, mas eles se aplicam em diferentes estágios do tratamento de solicitações:

A divisão de tráfego determina o destino inicial (primário) de uma solicitação.
O fallback define como o sistema tenta novamente a solicitação se a tentativa principal falhar.

Ao configurar a divisão de tráfego e fallbacks:

Para cada solicitação recebida, a divisão de tráfego seleciona um destino do conjunto configurado, com base nos pesos. Esta seleção torna-se o destino primário para essa solicitação.
O sistema envia a solicitação para o destino principal.
Se a solicitação falhar (por exemplo, devido a um erro 429 ou 5xx), o sistema tentará novamente a solicitação nos destinos de fallback configurados. Ele os tenta na ordem exata especificada.
O sistema tenta fallbacks sequencialmente até que um seja bem-sucedido ou esgote todas as opções de fallback.

nota

Fallbacks são independentes da divisão de tráfego. Depois que o sistema seleciona um destino principal, ele não reaplica a divisão de tráfego durante as novas tentativas.

O desdobramento de tráfego e o fallback fluem em um serviço de modelo.

Observabilidade

Decisões de roteamento para divisões de tráfego e fallbacks são registradas no campo routing_information na system table system.ai_gateway.usage. Consulte esta tabela para verificar se as requisições estão sendo roteadas de acordo com suas porcentagens configuradas e ordem de fallback.

SQL
SELECT
  destination_name AS destination,
  COUNT(*) AS request_count,
  ROUND(COUNT(*) * 100.0 / SUM(COUNT(*)) OVER (), 1) AS actual_pct
FROM system.ai_gateway.usage
WHERE
  endpoint_name = 'your-endpoint-name'
  AND event_time >= CURRENT_TIMESTAMP - INTERVAL 7 DAY
GROUP BY destination_name
ORDER BY actual_pct DESC;

Limitações

Você pode configurar a divisão de tráfego em um máximo de 5 destinos.
Não é possível configurar a divisão de tráfego em destinos de fallback.

Requisitos​

Configurar a divisão de tráfego na interface do usuário​

Afinidade de sessão​

Interação com fallbacks​

Observabilidade​

Limitações​

Recursos adicionais​