Pular para o conteúdo principal

Configurar o endpoint do AI Gateway

info

Beta

Este recurso está em versão Beta. Os administradores da conta podem controlar o acesso a este recurso na página de pré-visualizações do console account . Veja as prévias do Gerenciador Databricks.

Esta página descreve como configurar o endpoint AI Gateway (Beta) .

Requisitos

Criar um endpointde gateway AI

Para criar um endpoint do AI Gateway:

  1. Na barra lateral, clique em AI Gateway .
  2. Clique em Criar ponto de extremidade do Gateway AI .
  3. Configure o nome do seu endpoint e o modelo principal.
  4. Clique em Criar .

Configure o recurso em um endpoint

Você pode atualizar o endpoint AI Gateway para habilitar e desabilitar o recurso. As atualizações nas configurações do AI Gateway podem levar até 1 minuto para entrar em vigor.

Para atualizar o recurso do AI Gateway em um endpoint existente:

  1. Clique no seu endpoint na página do AI Gateway.
  2. Na barra lateral Detalhes do ponto de extremidade do Gateway, clique no ícone de edição ao lado do recurso que deseja atualizar.
  3. Faça as alterações e clique em Salvar .

Interface do usuário do Gateway AI

A tabela a seguir resume os recursos disponíveis AI Gateway e como configurá-los:

Recurso

Como configurar

Detalhes

Uso

Ativado por default.

  • registra dados de uso na tabela de sistema system.ai_gateway.usage .
  • Os administradores da conta devem habilitar o esquema de tabela do sistema ai_gateway antes de usar as tabelas do sistema. Consulte Conceder acesso às tabelas do sistema.
  • Somente os administradores account têm permissão para view ou consultar a tabela system.ai_gateway.usage .
  • As contagens de tokens de entrada e saída são estimadas como (text_length+1)/4 se a contagem de tokens não for retornada pelo modelo.

Tabelas de inferência

Selecione Ativar tabelas de inferência para log solicitações e respostas.

  • registra informações nas tabelas Delta Unity Catalog .
  • Você deve ter permissão CREATE TABLE no esquema de catálogo especificado.
  • Arquivos com tamanho superior a 10 MiB não são considerados registros.
  • A carga útil da resposta agrega a resposta de todos os fragmentos retornados.

Limites de taxa

Selecione os limites de taxa para configurar consultas por minuto (QPM) ou tokens por minuto (TPM).

  • Configure limites no nível do endpoint, do usuário ou do grupo.

    • Utilize o campo de ponto final para definir limites globais. O limite de taxa endpoint é um máximo global. Caso esse limite seja excedido, todas as solicitações serão bloqueadas.
    • Utilize o campo Usuário (padrão) para definir limites por usuário.
      • Defina limites de tarifas personalizados para usuários individuais, entidades de serviço ou grupos.
  • É possível especificar um máximo de 20 limites de taxa e até 5 limites de taxa específicos para cada grupo.

  • Se um usuário tiver limites de QPM e TPM, o limite mais restritivo será aplicado.

  • Os limites de taxa aplicam-se apenas aos usuários que têm permissão para consultar o endpoint.

  • Por default, não há limites de taxa configurados para usuários ou para o endpoint.

  • Os limites de taxa personalizados substituem o limite de taxa do usuário (padrão).

    • Se um usuário estiver sujeito tanto a um limite específico do usuário quanto a um limite específico do grupo, o limite específico do usuário será aplicado.
    • Se um usuário pertencer a vários grupos de usuários com limites de taxa diferentes, ele terá sua taxa limitada caso exceda todos os limites de taxa QPM ou todos os limites de taxa TPM de seus respectivos grupos de usuários.

Fallbacks

Selecione Adicionar modelo fallback para configurar os modelos fallback .

  • As solicitações recorrem a outros modelos quando o modelo primário retorna erros 429 ou 5XX .
  • Cada modelo fallback é testado uma vez em ordem sequencial até que a solicitação seja bem-sucedida.
  • A primeira tentativa de requisição bem-sucedida ou a última tentativa malsucedida, bem como a resposta, são registradas nas tabelas de acompanhamento de uso e de inferência.
  • Todas as tentativas fallback são registradas no campo routing_information da tabela de acompanhamento de uso.

O diagrama a seguir mostra um exemplo de fallback em que três modelos estão registrados como destinos de um endpoint do AI Gateway:

  1. A solicitação é originalmente encaminhada para o Modelo 1.
  2. Se a solicitação retornar uma resposta 200, significa que a solicitação foi bem-sucedida no Modelo 1 e a solicitação e sua resposta são registradas nas tabelas de acompanhamento e inferência de uso.
  3. Se a solicitação retornar um erro 429 ou 5XX no Modelo 1, a solicitação recorrerá ao próximo modelo no endpoint, o Modelo 2.
  4. Se a solicitação retornar um erro 429 ou 5XX no Modelo 2, a solicitação recorrerá ao próximo modelo no endpoint, o Modelo 3.
  5. Se a solicitação retornar um erro 429 ou 5XX no Modelo 3, a solicitação falhará, pois todos os modelos de fallback foram tentados. A solicitação com falha e o erro de resposta são registros nas tabelas de acompanhamento e inferência de uso.

exemplo de fallback

Próximos passos