Configure a divisão de tráfego para o endpoint do Unity AI Gateway.

info

Beta

Este recurso está em versão Beta. Os administradores da conta podem controlar o acesso a este recurso na página de pré-visualizações do console account . Veja as prévias do Gerenciador Databricks.

Esta página descreve como configurar a divisão de tráfego para o endpoint do Unity AI Gateway . Utilize a divisão de tráfego para distribuir as solicitações entre vários backends de modelos por trás de um único endpoint do Unity AI Gateway, permitindo a implementação gradual de novos modelos, a execução de testes A/B e a distribuição da carga entre os provedores.

Requisitos

A pré-visualização do Unity AI Gateway foi ativada para sua account. Veja as prévias do Gerenciador Databricks.
Um workspace Databricks em uma região compatível com o Unity AI Gateway.

Configure a divisão de tráfego na interface do usuário.

No seu workspace Databricks , clique em AI Gateway na barra lateral e selecione o endpoint que deseja editar.
Na seção Destinos , clique em Adicionar outro modelo para adicionar uma entrada de destino para cada backend de modelo que você deseja incluir na divisão.
Para cada destino, defina a porcentagem de tráfego para a parcela de tráfego que você deseja que esse modelo receba.
- As porcentagens devem somar 100%.
O sistema salva as alterações automaticamente quando a soma de todas as alocações atinge 100%.

O Unity AI Gateway encaminha aleatoriamente cada solicitação entre os destinos configurados, de acordo com as porcentagens de tráfego especificadas. Com o tempo, a parcela de tráfego observada para cada destino converge para as porcentagens configuradas.

Interação com o recurso de fallback

Você pode usar o direcionamento de tráfego e mecanismos de fallback em conjunto, mas eles se aplicam em diferentes estágios do processamento de requisições:

A divisão de tráfego determina o destino inicial (primário) de uma solicitação.
O fallback define como o sistema tenta novamente a solicitação caso a tentativa principal falhe.

Ao configurar tanto a divisão de tráfego quanto o fallback:

Para cada solicitação recebida, a divisão de tráfego seleciona um destino do conjunto configurado, com base em pesos. Essa opção se torna o destino principal dessa solicitação.
O sistema envia a solicitação para o destino principal.
Se a solicitação falhar (por exemplo, devido a um erro 429 ou 5xx), o sistema tentará novamente a solicitação nos destinos fallback configurados. Ele os testa exatamente na ordem especificada.
O sistema tenta alternativas sequencialmente até que uma seja bem-sucedida ou até que todas as opções fallback sejam esgotadas.

nota

Os mecanismos de contingência são independentes da divisão de tráfego. Após o sistema selecionar um destino principal, ele não reaplica a divisão de tráfego durante as novas tentativas.

Divisão de tráfego e fluxo alternativo em um endpointde gateway de IA

Observabilidade

As decisões de roteamento para divisão de tráfego e fallback são registradas no campo routing_information da tabela de sistema system.ai_gateway.usage . Consulte esta tabela para verificar se as solicitações estão sendo roteadas de acordo com as porcentagens configuradas e a ordem de fallback.

SQL
SELECT
  destination_name AS destination,
  COUNT(*) AS request_count,
  ROUND(COUNT(*) * 100.0 / SUM(COUNT(*)) OVER (), 1) AS actual_pct
FROM system.ai_gateway.usage
WHERE
  endpoint_name = 'your-endpoint-name'
  AND event_time >= CURRENT_TIMESTAMP - INTERVAL 7 DAY
GROUP BY destination_name
ORDER BY actual_pct DESC;

Limitações

Você pode configurar a divisão de tráfego entre até 5 destinos.
Não é possível configurar a divisão de tráfego em destinos fallback .

Requisitos​

Configure a divisão de tráfego na interface do usuário.​

Interação com o recurso de fallback​

Observabilidade​

Limitações​

Próximos passos​

Requisitos

Configure a divisão de tráfego na interface do usuário.

Interação com o recurso de fallback

Observabilidade

Limitações

Próximos passos