Pular para o conteúdo principal

Configure a divisão de tráfego para o endpoint do Unity AI Gateway.

info

Beta

Este recurso está em versão Beta. Os administradores da conta podem controlar o acesso a este recurso na página de pré-visualizações do console account . Veja as prévias do Gerenciador Databricks.

Esta página descreve como configurar a divisão de tráfego para o endpoint do Unity AI Gateway . Utilize a divisão de tráfego para distribuir as solicitações entre vários backends de modelos por trás de um único endpoint do Unity AI Gateway, permitindo a implementação gradual de novos modelos, a execução de testes A/B e a distribuição da carga entre os provedores.

Requisitos

Configure a divisão de tráfego na interface do usuário.

  1. No seu workspace Databricks , clique em AI Gateway na barra lateral e selecione o endpoint que deseja editar.

  2. Na seção Destinos , clique em Adicionar outro modelo para adicionar uma entrada de destino para cada backend de modelo que você deseja incluir na divisão.

  3. Para cada destino, defina a porcentagem de tráfego para a parcela de tráfego que você deseja que esse modelo receba.

    • As porcentagens devem somar 100%.
  4. O sistema salva as alterações automaticamente quando a soma de todas as alocações atinge 100%.

O Unity AI Gateway encaminha aleatoriamente cada solicitação entre os destinos configurados, de acordo com as porcentagens de tráfego especificadas. Com o tempo, a parcela de tráfego observada para cada destino converge para as porcentagens configuradas.

Interação com o recurso de fallback

Você pode usar o direcionamento de tráfego e mecanismos de fallback em conjunto, mas eles se aplicam em diferentes estágios do processamento de requisições:

  • A divisão de tráfego determina o destino inicial (primário) de uma solicitação.
  • O fallback define como o sistema tenta novamente a solicitação caso a tentativa principal falhe.

Ao configurar tanto a divisão de tráfego quanto o fallback:

  1. Para cada solicitação recebida, a divisão de tráfego seleciona um destino do conjunto configurado, com base em pesos. Essa opção se torna o destino principal dessa solicitação.
  2. O sistema envia a solicitação para o destino principal.
  3. Se a solicitação falhar (por exemplo, devido a um erro 429 ou 5xx), o sistema tentará novamente a solicitação nos destinos fallback configurados. Ele os testa exatamente na ordem especificada.
  4. O sistema tenta alternativas sequencialmente até que uma seja bem-sucedida ou até que todas as opções fallback sejam esgotadas.
nota

Os mecanismos de contingência são independentes da divisão de tráfego. Após o sistema selecionar um destino principal, ele não reaplica a divisão de tráfego durante as novas tentativas.

Divisão de tráfego e fluxo alternativo em um endpointde gateway de IA

Observabilidade

As decisões de roteamento para divisão de tráfego e fallback são registradas no campo routing_information da tabela de sistema system.ai_gateway.usage . Consulte esta tabela para verificar se as solicitações estão sendo roteadas de acordo com as porcentagens configuradas e a ordem de fallback.

SQL
SELECT
destination_name AS destination,
COUNT(*) AS request_count,
ROUND(COUNT(*) * 100.0 / SUM(COUNT(*)) OVER (), 1) AS actual_pct
FROM system.ai_gateway.usage
WHERE
endpoint_name = 'your-endpoint-name'
AND event_time >= CURRENT_TIMESTAMP - INTERVAL 7 DAY
GROUP BY destination_name
ORDER BY actual_pct DESC;

Limitações

  • Você pode configurar a divisão de tráfego entre até 5 destinos.
  • Não é possível configurar a divisão de tráfego em destinos fallback .

Próximos passos