Configure o endpoint do Unity AI Gateway.

info

Beta

Este recurso está em versão Beta. Os administradores da conta podem controlar o acesso a este recurso na página de pré-visualizações do console account . Veja as prévias do Gerenciador Databricks.

Esta página descreve como configurar o endpoint do Unity AI Gateway .

Requisitos

A pré-visualização do Unity AI Gateway foi ativada para sua account. Veja as prévias do Gerenciador Databricks.
Um workspace Databricks em uma região compatível com o Unity AI Gateway.
Unity Catalog está habilitado para seu workspace. Consulte Ativar um workspace para Unity Catalog.
O usuário que cria ou modifica o endpoint deve ter permissão CAN MANAGE no endpoint. Ver Listas de controle de acesso.

Crie um endpoint do Unity AI Gateway

Para criar um endpoint do Unity AI Gateway:

Na barra lateral, clique em AI Gateway .
Clique em Criar endpoint do Unity AI Gateway .
Configure o nome do seu endpoint e o modelo principal.
Clique em Criar .

Configure o recurso em um endpoint

Você pode atualizar o endpoint do Unity AI Gateway para habilitar e desabilitar o recurso. As atualizações nas configurações do Unity AI Gateway podem levar até 1 minuto para entrar em vigor.

Para atualizar o recurso do Unity AI Gateway em um endpoint existente:

Clique no seu endpoint na página do AI Gateway.
Na barra lateral Detalhes do ponto de extremidade do Gateway, clique no ícone de edição ao lado do recurso que deseja atualizar.
Faça as alterações e clique em Salvar .

Interface do usuário do Gateway AI

A tabela a seguir resume os recursos disponíveis do Unity AI Gateway e como configurá-los:

Recurso	Como configurar	Detalhes
Uso	Ativado por default.	registra dados de uso na tabela de sistema `system.ai_gateway.usage` . Os administradores da conta devem habilitar o esquema de tabela do sistema `ai_gateway` antes de usar as tabelas do sistema. Consulte Conceder acesso às tabelas do sistema. Somente os administradores account têm permissão para view ou consultar a tabela `system.ai_gateway.usage` . As contagens de tokens de entrada e saída são estimadas como `(text_length+1)/4` se a contagem de tokens não for retornada pelo modelo.
Tabelas de inferência	Selecione Ativar tabelas de inferência para log solicitações e respostas.	registra informações nas tabelas Delta Unity Catalog . Você deve ter permissão `CREATE TABLE` no esquema de catálogo especificado. Arquivos com tamanho superior a 10 MiB não são considerados registros. A carga útil da resposta agrega a resposta de todos os fragmentos retornados.
Limites de taxa	Selecione os limites de taxa para configurar consultas por minuto (QPM) ou tokens por minuto (TPM).	Configure limites no nível do endpoint, do usuário ou do grupo. Utilize o campo de ponto final para definir limites globais. O limite de taxa endpoint é um máximo global. Caso esse limite seja excedido, todas as solicitações serão bloqueadas. Utilize o campo Usuário (padrão) para definir limites por usuário. Defina limites de tarifas personalizados para usuários individuais, entidades de serviço ou grupos.
Guarda-corpos	Selecione "Guardrails" para configurar as políticas de conteúdo.	Aplicar detecção de informações de identificação pessoal (PII), moderação de conteúdo e outras políticas pré-construídas baseadas em LLMa solicitações e respostas. As solicitações bloqueadas retornam o código HTTP 400 e são registradas nas tabelas de acompanhamento e inferência de uso. Habilite a execução a seco para testar configurações de guarda-corpo sem afetar o tráfego de produção. No modo de execução a seco, as salvaguardas são avaliadas, mas as solicitações ou respostas nunca são bloqueadas ou modificadas.
Fallbacks	Selecione Adicionar modelo fallback para configurar os modelos fallback .	As solicitações recorrem a outros modelos quando o modelo primário retorna erros `429` ou `5XX` . Cada modelo fallback é testado uma vez em ordem sequencial até que a solicitação seja bem-sucedida. A primeira tentativa de requisição bem-sucedida ou a última tentativa malsucedida, bem como a resposta, são registradas nas tabelas de acompanhamento de uso e de inferência. Todas as tentativas fallback são registradas no campo `routing_information` da tabela de acompanhamento de uso.
Divisão de tráfego	Selecione " Adicionar divisão de tráfego" para distribuir as solicitações entre vários back-ends de modelo.	Atribua uma porcentagem de tráfego a cada modelo de destino. As porcentagens devem somar 100%. Utilize a divisão de tráfego para implementar novos modelos gradualmente, executar testes A/B ou distribuir a carga entre provedores. Todas as decisões de roteamento são registradas no campo `routing_information` da tabela de acompanhamento de uso.
APIs personalizadas	Selecione API personalizada ao criar um endpoint para conectar-se a uma API externa.	Aplique os mesmos controles de acesso, limites de taxa e registro de logs a qualquer endpoint de API externo. O tráfego personalizado API é registrado nas tabelas de acompanhamento de uso e inferência, com algumas limitações: a contagem de tokens pode não estar disponível no acompanhamento de uso e a agregação de fragmentos de resposta para solicitações de transmissão pode não estar disponível nas tabelas de inferência.

O diagrama a seguir mostra um exemplo de fallback em que três modelos são registrados como destinos de um endpoint do Unity AI Gateway:

A solicitação é originalmente encaminhada para o Modelo 1.
Se a solicitação retornar uma resposta 200, significa que a solicitação foi bem-sucedida no Modelo 1 e a solicitação e sua resposta são registradas nas tabelas de acompanhamento e inferência de uso.
Se a solicitação retornar um erro 429 ou 5XX no Modelo 1, a solicitação recorrerá ao próximo modelo no endpoint, o Modelo 2.
Se a solicitação retornar um erro 429 ou 5XX no Modelo 2, a solicitação recorrerá ao próximo modelo no endpoint, o Modelo 3.
Se a solicitação retornar um erro 429 ou 5XX no Modelo 3, a solicitação falhará, pois todos os modelos de fallback foram tentados. A solicitação com falha e o erro de resposta são registros nas tabelas de acompanhamento e inferência de uso.

exemplo de fallback

Requisitos​

Crie um endpoint do Unity AI Gateway​

Configure o recurso em um endpoint​

Próximos passos​

Requisitos

Crie um endpoint do Unity AI Gateway

Configure o recurso em um endpoint

Próximos passos