Configure os endpoints do Unity AI Gateway

info

Beta

Este recurso está em Beta. Administradores de conta podem controlar o acesso a este recurso na página Prévias do console da conta. Consulte Gerenciar prévias do Databricks.

Esta página descreve como configurar os endpoints do Unity AI Gateway.

Requisitos

Prévia do Unity AI Gateway ativada para sua account. Consulte Gerenciar prévias do Databricks.
Um workspace do Databricks em uma região suportada pelo Unity AI Gateway.
Unity Catalog habilitado para seu workspace. Consulte Ativar um workspace para o Unity Catalog.
Operações de administração de endpoint exigem CAN MANAGE nesse endpoint. Consulte listas de controle de acesso.
Na criação, o criador recebe CAN MANAGE no novo endpoint.
Para evitar o desvio de mecanismos de proteção ou limites de taxa de transferência, restrinja a criação de endpoints e CAN MANAGE a administradores, e conceda a outros usuários apenas permissões de query em endpoints aprovados.

Criar um endpoint do Unity AI Gateway

Para criar um endpoint do Unity AI Gateway:

Na barra lateral, clique em AI Gateway .
Clique em **Criar Endpoint do Unity AI Gateway**.
Configure o nome do seu endpoint e o modelo principal.
Clique em Criar .

Configurar recursos em um endpoint

Você pode atualizar os endpoints do Unity AI Gateway para ativar e desativar recursos. As atualizações nas configurações do Unity AI Gateway levam até 1 minuto para entrar em vigor.

Para atualizar os recursos do Unity AI Gateway em um endpoint existente:

Na página do AI Gateway, clique no seu endpoint.
Na barra lateral Detalhes do endpoint do Gateway, clique no ícone Editar ao lado do recurso que deseja atualizar.
Faça suas alterações e clique em **Salvar**.

IU do AI Gateway

A tabela a seguir resume os recursos disponíveis do Unity AI Gateway e como configurá-los:

Recurso	Como configurar	Detalhes
Acompanhamento de uso	Habilitado por default.	Log de dados de uso na tabela do sistema `system.ai_gateway.usage`. Administradores de account devem habilitar o esquema da tabela de sistema `ai_gateway` antes de usar as tabelas do sistema. Consulte Conceder acesso às tabelas do sistema. Somente os administradores account têm permissão para view ou consultar a tabela `system.ai_gateway.usage` . As contagens de tokens de entrada e saída são estimadas como `(text_length+1)/4` se a contagem de tokens não for retornada pelo modelo.
Tabelas de inferência	Selecione Habilitar tabelas de inferência para log solicitações e respostas.	log para tabelas Delta do Unity Catalog. É preciso ter a permissão `CREATE TABLE` no esquema de catálogo especificado. Cargas úteis maiores que 10 MiB não são registradas em log. A carga de resposta agrega a resposta de todos os blocos retornados.
Limites de taxa	Selecione Limites de taxa para configurar queries por minuto (QPM) ou tokens por minuto (TPM).	Configure limites em nível de endpoint, usuário ou grupo. Use o campo Endpoint para definir limites globais. O limite de taxa do endpoint é um máximo global. Se excedido, todos os pedidos são bloqueados. Use o campo Usuário (Default) para definir limites por usuário. Defina limites de taxa personalizados para usuários individuais, entidades de serviço ou grupos.
Proteções	Selecione Guardrails para configurar políticas de conteúdo.	Aplique detecção de informação pessoal identificável (PII), moderação de conteúdo e outras políticas pré-construídas baseadas em LLM a solicitações e respostas. Solicitações bloqueadas retornam HTTP 400 e são registradas nas tabelas de acompanhamento de uso e inferência. Habilite a execução de teste para testar configurações de barreira de segurança sem afetar o tráfego de produção. No modo de execução de teste, as barreiras de segurança são avaliadas, mas as solicitações ou respostas nunca são bloqueadas ou modificadas.
Fallbacks	Selecione Adicionar modelo de fallback para configurar modelos de fallback.	As solicitações recorrem a outros modelos quando o modelo primário retorna erros `429` ou `5XX`. Cada modelo de fallback é tentado uma vez em ordem sequencial até que a solicitação seja bem-sucedida. A primeira tentativa de solicitação bem-sucedida ou a última tentativa com falha e a resposta são registradas tanto no acompanhamento de uso quanto nas tabelas de inferência. Todas as tentativas de fallback são registradas no campo `routing_information` da tabela de acompanhamento de uso.
Divisão de tráfego	Selecione Adicionar divisão de tráfego para distribuir solicitações entre vários backends de modelo.	Atribua uma porcentagem de tráfego a cada modelo de destino. As porcentagens devem totalizar 100. Use a divisão de tráfego para implantar novos modelos gradualmente, realizar a execução de testes A/B ou distribuir a carga entre os provedores. Todas as decisões de roteamento são registradas no campo `routing_information` da tabela de acompanhamento de uso.
APIs personalizadas	Selecione API Personalizada ao criar um endpoint para se conectar a uma API externa.	Aplique os mesmos controles de acesso, limites de taxa e registro a qualquer endpoint de API externo. O tráfego de API personalizado é registrado em log nas tabelas de acompanhamento de uso e inferência, com algumas limitações: a contagem de tokens pode não estar disponível no acompanhamento de uso, e a agregação de blocos de resposta para solicitações de transmissão pode não estar disponível nas tabelas de inferência.

O diagrama a seguir mostra um exemplo de fallback onde três modelos estão registrados como destinos de um endpoint do Unity AI Gateway:

A solicitação é originalmente roteada para o Modelo 1.
Se a solicitação retornar uma resposta 200, a solicitação foi bem-sucedida no Modelo 1, e a solicitação e sua resposta serão registradas em log nas tabelas de acompanhamento de uso e de inferência.
Se a solicitação retornar um erro 429 ou 5XX no Modelo 1, a solicitação recorre ao próximo modelo no endpoint, o Modelo 2.
Se a solicitação retornar um erro 429 ou 5XX no Modelo 2, a solicitação recorrerá ao próximo modelo no endpoint, o Modelo 3.
Se a solicitação retornar um erro 429 ou 5XX no Modelo 3, a solicitação falhará, pois todos os modelos de fallback foram tentados. A solicitação falha e o erro de resposta são registrados nas tabelas de acompanhamento de uso e de inferência.

Exemplo de fallback

Requisitos​

Criar um endpoint do Unity AI Gateway​

Configurar recursos em um endpoint​

Próximos os passos​

Requisitos

Criar um endpoint do Unity AI Gateway

Configurar recursos em um endpoint

Próximos os passos