Pular para o conteúdo principal

Configure o endpoint do Unity AI Gateway.

info

Beta

Este recurso está em versão Beta. Os administradores da conta podem controlar o acesso a este recurso na página de pré-visualizações do console account . Veja as prévias do Gerenciador Databricks.

Esta página descreve como configurar o endpoint do Unity AI Gateway .

Requisitos

Crie um endpoint do Unity AI Gateway

Para criar um endpoint do Unity AI Gateway:

  1. Na barra lateral, clique em AI Gateway .
  2. Clique em Criar endpoint do Unity AI Gateway .
  3. Configure o nome do seu endpoint e o modelo principal.
  4. Clique em Criar .

Configure o recurso em um endpoint

Você pode atualizar o endpoint do Unity AI Gateway para habilitar e desabilitar o recurso. As atualizações nas configurações do Unity AI Gateway podem levar até 1 minuto para entrar em vigor.

Para atualizar o recurso do Unity AI Gateway em um endpoint existente:

  1. Clique no seu endpoint na página do AI Gateway.
  2. Na barra lateral Detalhes do ponto de extremidade do Gateway, clique no ícone de edição ao lado do recurso que deseja atualizar.
  3. Faça as alterações e clique em Salvar .

Interface do usuário do Gateway AI

A tabela a seguir resume os recursos disponíveis do Unity AI Gateway e como configurá-los:

Recurso

Como configurar

Detalhes

Uso

Ativado por default.

  • registra dados de uso na tabela de sistema system.ai_gateway.usage .
  • Os administradores da conta devem habilitar o esquema de tabela do sistema ai_gateway antes de usar as tabelas do sistema. Consulte Conceder acesso às tabelas do sistema.
  • Somente os administradores account têm permissão para view ou consultar a tabela system.ai_gateway.usage .
  • As contagens de tokens de entrada e saída são estimadas como (text_length+1)/4 se a contagem de tokens não for retornada pelo modelo.

Tabelas de inferência

Selecione Ativar tabelas de inferência para log solicitações e respostas.

  • registra informações nas tabelas Delta Unity Catalog .
  • Você deve ter permissão CREATE TABLE no esquema de catálogo especificado.
  • Arquivos com tamanho superior a 10 MiB não são considerados registros.
  • A carga útil da resposta agrega a resposta de todos os fragmentos retornados.

Limites de taxa

Selecione os limites de taxa para configurar consultas por minuto (QPM) ou tokens por minuto (TPM).

  • Configure limites no nível do endpoint, do usuário ou do grupo.
    • Utilize o campo de ponto final para definir limites globais. O limite de taxa endpoint é um máximo global. Caso esse limite seja excedido, todas as solicitações serão bloqueadas.
    • Utilize o campo Usuário (padrão) para definir limites por usuário.
      • Defina limites de tarifas personalizados para usuários individuais, entidades de serviço ou grupos.

Guarda-corpos

Selecione "Guardrails" para configurar as políticas de conteúdo.

  • Aplicar detecção de informações de identificação pessoal (PII), moderação de conteúdo e outras políticas pré-construídas baseadas em LLMa solicitações e respostas.
  • As solicitações bloqueadas retornam o código HTTP 400 e são registradas nas tabelas de acompanhamento e inferência de uso.
  • Habilite a execução a seco para testar configurações de guarda-corpo sem afetar o tráfego de produção. No modo de execução a seco, as salvaguardas são avaliadas, mas as solicitações ou respostas nunca são bloqueadas ou modificadas.

Fallbacks

Selecione Adicionar modelo fallback para configurar os modelos fallback .

  • As solicitações recorrem a outros modelos quando o modelo primário retorna erros 429 ou 5XX .
  • Cada modelo fallback é testado uma vez em ordem sequencial até que a solicitação seja bem-sucedida.
  • A primeira tentativa de requisição bem-sucedida ou a última tentativa malsucedida, bem como a resposta, são registradas nas tabelas de acompanhamento de uso e de inferência.
  • Todas as tentativas fallback são registradas no campo routing_information da tabela de acompanhamento de uso.

Divisão de tráfego

Selecione " Adicionar divisão de tráfego" para distribuir as solicitações entre vários back-ends de modelo.

  • Atribua uma porcentagem de tráfego a cada modelo de destino. As porcentagens devem somar 100%.
  • Utilize a divisão de tráfego para implementar novos modelos gradualmente, executar testes A/B ou distribuir a carga entre provedores.
  • Todas as decisões de roteamento são registradas no campo routing_information da tabela de acompanhamento de uso.

APIs personalizadas

Selecione API personalizada ao criar um endpoint para conectar-se a uma API externa.

  • Aplique os mesmos controles de acesso, limites de taxa e registro de logs a qualquer endpoint de API externo.
  • O tráfego personalizado API é registrado nas tabelas de acompanhamento de uso e inferência, com algumas limitações: a contagem de tokens pode não estar disponível no acompanhamento de uso e a agregação de fragmentos de resposta para solicitações de transmissão pode não estar disponível nas tabelas de inferência.

O diagrama a seguir mostra um exemplo de fallback em que três modelos são registrados como destinos de um endpoint do Unity AI Gateway:

  1. A solicitação é originalmente encaminhada para o Modelo 1.
  2. Se a solicitação retornar uma resposta 200, significa que a solicitação foi bem-sucedida no Modelo 1 e a solicitação e sua resposta são registradas nas tabelas de acompanhamento e inferência de uso.
  3. Se a solicitação retornar um erro 429 ou 5XX no Modelo 1, a solicitação recorrerá ao próximo modelo no endpoint, o Modelo 2.
  4. Se a solicitação retornar um erro 429 ou 5XX no Modelo 2, a solicitação recorrerá ao próximo modelo no endpoint, o Modelo 3.
  5. Se a solicitação retornar um erro 429 ou 5XX no Modelo 3, a solicitação falhará, pois todos os modelos de fallback foram tentados. A solicitação com falha e o erro de resposta são registros nas tabelas de acompanhamento e inferência de uso.

exemplo de fallback

Próximos passos