Pular para o conteúdo principal

Configure os endpoints do Unity AI Gateway

info

Beta

Este recurso está em Beta. Administradores de conta podem controlar o acesso a este recurso na página Prévias do console da conta. Consulte Gerenciar prévias do Databricks.

Esta página descreve como configurar os endpoints do Unity AI Gateway.

Requisitos

Criar um endpoint do Unity AI Gateway

Para criar um endpoint do Unity AI Gateway:

  1. Na barra lateral, clique em AI Gateway .
  2. Clique em **Criar Endpoint do Unity AI Gateway**.
  3. Configure o nome do seu endpoint e o modelo principal.
  4. Clique em Criar .

Configurar recursos em um endpoint

Você pode atualizar os endpoints do Unity AI Gateway para ativar e desativar recursos. As atualizações nas configurações do Unity AI Gateway levam até 1 minuto para entrar em vigor.

Para atualizar os recursos do Unity AI Gateway em um endpoint existente:

  1. Na página do AI Gateway, clique no seu endpoint.
  2. Na barra lateral Detalhes do endpoint do Gateway, clique no ícone Editar ao lado do recurso que deseja atualizar.
  3. Faça suas alterações e clique em **Salvar**.

IU do AI Gateway

A tabela a seguir resume os recursos disponíveis do Unity AI Gateway e como configurá-los:

Recurso

Como configurar

Detalhes

Acompanhamento de uso

Habilitado por default.

  • Log de dados de uso na tabela do sistema system.ai_gateway.usage.
  • Administradores de account devem habilitar o esquema da tabela de sistema ai_gateway antes de usar as tabelas do sistema. Consulte Conceder acesso às tabelas do sistema.
  • Somente os administradores account têm permissão para view ou consultar a tabela system.ai_gateway.usage .
  • As contagens de tokens de entrada e saída são estimadas como (text_length+1)/4 se a contagem de tokens não for retornada pelo modelo.

Tabelas de inferência

Selecione Habilitar tabelas de inferência para log solicitações e respostas.

  • log para tabelas Delta do Unity Catalog.
  • É preciso ter a permissão CREATE TABLE no esquema de catálogo especificado.
  • Cargas úteis maiores que 10 MiB não são registradas em log.
  • A carga de resposta agrega a resposta de todos os blocos retornados.

Limites de taxa

Selecione Limites de taxa para configurar queries por minuto (QPM) ou tokens por minuto (TPM).

  • Configure limites em nível de endpoint, usuário ou grupo.
    • Use o campo **Endpoint** para definir limites globais. O limite de taxa do endpoint é um máximo global. Se excedido, todos os pedidos são bloqueados.
    • Use o campo **Usuário (Default)** para definir limites por usuário.
      • Defina limites de taxa personalizados para usuários individuais, entidades de serviço ou grupos.

Proteções

Selecione **Guardrails** para configurar políticas de conteúdo.

  • Aplique detecção de informação pessoal identificável (PII), moderação de conteúdo e outras políticas pré-construídas baseadas em LLM a solicitações e respostas.
  • Solicitações bloqueadas retornam HTTP 400 e são registradas nas tabelas de acompanhamento de uso e inferência.
  • Habilite a execução de teste para testar configurações de barreira de segurança sem afetar o tráfego de produção. No modo de execução de teste, as barreiras de segurança são avaliadas, mas as solicitações ou respostas nunca são bloqueadas ou modificadas.

Fallbacks

Selecione Adicionar modelo de fallback para configurar modelos de fallback.

  • As solicitações recorrem a outros modelos quando o modelo primário retorna erros 429 ou 5XX.
  • Cada modelo de fallback é tentado uma vez em ordem sequencial até que a solicitação seja bem-sucedida.
  • A primeira tentativa de solicitação bem-sucedida ou a última tentativa com falha e a resposta são registradas tanto no acompanhamento de uso quanto nas tabelas de inferência.
  • Todas as tentativas de fallback são registradas no campo routing_information da tabela de acompanhamento de uso.

Divisão de tráfego

Selecione **Adicionar divisão de tráfego** para distribuir solicitações entre vários backends de modelo.

  • Atribua uma porcentagem de tráfego a cada modelo de destino. As porcentagens devem totalizar 100.
  • Use a divisão de tráfego para implantar novos modelos gradualmente, realizar a execução de testes A/B ou distribuir a carga entre os provedores.
  • Todas as decisões de roteamento são registradas no campo routing_information da tabela de acompanhamento de uso.

APIs personalizadas

Selecione API Personalizada ao criar um endpoint para se conectar a uma API externa.

  • Aplique os mesmos controles de acesso, limites de taxa e registro a qualquer endpoint de API externo.
  • O tráfego de API personalizado é registrado em log nas tabelas de acompanhamento de uso e inferência, com algumas limitações: a contagem de tokens pode não estar disponível no acompanhamento de uso, e a agregação de blocos de resposta para solicitações de transmissão pode não estar disponível nas tabelas de inferência.

O diagrama a seguir mostra um exemplo de fallback onde três modelos estão registrados como destinos de um endpoint do Unity AI Gateway:

  1. A solicitação é originalmente roteada para o Modelo 1.
  2. Se a solicitação retornar uma resposta 200, a solicitação foi bem-sucedida no Modelo 1, e a solicitação e sua resposta serão registradas em log nas tabelas de acompanhamento de uso e de inferência.
  3. Se a solicitação retornar um erro 429 ou 5XX no Modelo 1, a solicitação recorre ao próximo modelo no endpoint, o Modelo 2.
  4. Se a solicitação retornar um erro 429 ou 5XX no Modelo 2, a solicitação recorrerá ao próximo modelo no endpoint, o Modelo 3.
  5. Se a solicitação retornar um erro 429 ou 5XX no Modelo 3, a solicitação falhará, pois todos os modelos de fallback foram tentados. A solicitação falha e o erro de resposta são registrados nas tabelas de acompanhamento de uso e de inferência.

Exemplo de fallback

Próximos os passos