Pular para o conteúdo principal

GatewayAI para atendimento de endpoints

info

Experimente a nova versão beta do AI Gateway.

Uma nova experiência de Portal AI está disponível em versão Beta. O novo AI Gateway é o plano de controle empresarial para governar os endpoints LLM e os agentes de codificação com recursos aprimorados. Consulte AI Gateway (Beta).

Esta página descreve AI Gateway para o endpoint de serviço, que controla e monitora o acesso aos modelos AI generativos suportados e seus respectivos endpoints de modelo de serviço.

O que é um Gateway AI para endpoints de atendimento?

AI Gateway foi projetado para simplificar o uso e o gerenciamento de modelos e agentes AI generativa dentro de uma organização. É um serviço centralizado que traz governança, monitoramento e prontidão de produção para instalações modelo endpoint. Isso também permite executar, proteger e governar o tráfego AI para democratizar e acelerar a adoção AI em sua organização.

Todos os dados são registrados em tabelas Delta no Unity Catalog.

Para começar a visualizar as informações relevantes dos seus dados AI Gateway, download o painel de exemplo AI Gateway do GitHub. Este painel de controle utiliza os dados das tabelas de inferência de acompanhamento de uso e registro de carga útil.

Após download o arquivo JSON , importe o painel para seu workspace. Para obter instruções sobre como importar painéis, consulte Importar um arquivo de painel.

Recurso suportado

info

Portal AI (Beta)

O novo AI Gateway (Beta) oferece uma interface de usuário rica, observabilidade aprimorada e cobertura API expandida para LLMs, incluindo modelos externos e APIsde modelos Foundation com pagamento por token. Recomendamos o uso do AI Gateway (Beta) para desbloquear esses novos recursos.

A tabela a seguir define os recursos disponíveis AI Gateway e quais tipos endpoint do Servindo Modelo os suportam.

Recurso

Definição

endpoint do modelo externo

endpointde pagamento por tokens APIs do Foundation Model

Provisionamento APIs do Foundation Model Taxa de transferência endpoint

Agentes Mosaic AI

endpoint do modelo personalizado

Disponível no AI Gateway (Beta)

Use o recurso aprimorado AI Gateway. Consulte AI Gateway (Beta).

Apoiado

Apoiado

Não suportado

Não suportado

Não suportado

Permissão e limitação de taxas

Controle quem tem acesso e qual o nível de acesso.

Apoiado

Apoiado

Apoiado

Não suportado

Apoiado

Registro de carga útil

Monitorar e auditar os dados enviados para as APIs do modelo usando tabelas de inferência.

Apoiado

Apoiado

Apoiado

Apoiado

Apoiado

Uso

Monitore o uso operacional no endpoint e os custos associados usando tabelas do sistema.

Apoiado

Apoiado

Apoiado

Não suportado

Apoiado

Proteções de AI

Impeça a inclusão de dados indesejados e inseguros em solicitações e respostas. Consulte as diretrizesAI.

Apoiado

Apoiado

Apoiado

Não suportado

Não suportado

Fallbacks

Minimize as interrupções na produção durante e após a implantação.

Apoiado

Não suportado

Não suportado

Não suportado

Não suportado

Divisão de tráfego

Balancear a carga do tráfego entre os modelos.

Apoiado

Não suportado

Apoiado

Não suportado

Apoiado

AI Gateway gera cobranças com base no recurso ativado. O recurso pago inclui registro de carga útil e acompanhamento de uso. Recursos como permissões de consulta, limitação de taxa, fallback e divisão de tráfego são gratuitos. Qualquer novo recurso está sujeito a cobrança.

ProteçõesAI

info

Visualização

Este recurso está em Pré-visualização Pública.

Os Guardrails AI permitem que os usuários configurem e apliquem compliance de dados no nível endpoint do modelo de serviço e reduzam o conteúdo prejudicial em quaisquer solicitações enviadas ao modelo subjacente. Solicitações e respostas inválidas são bloqueadas e uma mensagem default é retornada ao usuário. Veja como configurar proteções em um endpointdo modelo de serviço.

importante

O serviço de moderação AI Guardrails depende dos modelos de pagamento por token APIs do Foundation Model. Essa dependência limita a disponibilidade do serviço de moderação AI Guardrails às regiões que suportam APIs do Foundation Model com pagamento por token.

A tabela a seguir resume as proteções configuráveis. Consulte as limitações.

Guarda-corpo

Definição

Filtragem de segurança

A filtragem de segurança impede que seu modelo interaja com conteúdo inseguro e prejudicial, como crimes violentos, automutilação e discurso de ódio. O filtro de segurança do AI Gateway foi desenvolvido com o Meta Llama 3. O Databricks utiliza o Llama Guard 2-8b como filtro de segurança. Para saber mais sobre o filtro de segurança Llama Guard e os tópicos relacionados a ele, consulte o cartão do modelo Meta Llama Guard 2 8B. Meta Llama 3 está licenciado sob a Licença LLAMA 3 comunidade, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir compliance com as licenças modelo aplicáveis.

Detecção de informações pessoalmente identificáveis (PII)

Os clientes podem detectar qualquer informação sensível, como números de cartão de crédito, dos usuários. Para este recurso, AI Gateway usa o Presidio para detectar as seguintes categorias de informações pessoais identificáveis (PII) dos EUA: números de cartão de crédito, endereços email , números de telefone, números account bancárias e números de segurança social. O classificador de PII pode ajudar a identificar informações sensíveis ou PII em dados estruturados e não estruturados. No entanto, como utiliza mecanismos de detecção automatizados, não há garantia de que o serviço encontrará todas as informações sensíveis. Consequentemente, sistemas e proteções adicionais devem ser empregados. Esses métodos de classificação são direcionados principalmente às categorias de informações pessoais identificáveis (PII) dos EUA, como números de telefone e números de segurança social.

Use o AI Gateway

Você pode configurar o recurso AI Gateway no endpoint do seu modelo de serviço usando a interface de usuário do Serving. Consulte Configurar AI Gateway no endpoint do modelo de operação.

Limitações

A seguir, apresentamos as limitações para o endpoint habilitado para AI Gateway:

  • Quando as proteções AI são usadas, o tamanho dos lotes de solicitação, ou seja, o tamanho dos lotes de embeddings, o tamanho dos lotes de conclusões ou o parâmetro n das solicitações de bate-papo, não pode exceder 16.
  • Se você usar chamadas de função e especificar diretrizes AI , essas diretrizes não serão aplicadas às solicitações e respostas intermediárias da função. No entanto, são aplicadas restrições à resposta final de saída.
  • Cargas de trabalho de conversão de texto em imagem não são suportadas.
  • Apenas o acompanhamento de uso é suportado para cargas de trabalho de inferência de lotes em endpoints de pagamento por token que tenham o recurso AI Gateway ativado. Na tabela do sistema endpoint_usage apenas as linhas correspondentes à solicitação de inferência de lotes são visíveis.
  • As salvaguardas e os mecanismos de contingência AI não são suportados no endpoint do modelo de serviço personalizado.
  • Para endpoints de modelo de serviço personalizado, somente cargas de trabalho que não são otimizadas para roteamento suportam limitação de taxa e acompanhamento de uso.
  • As tabelas de inferência para o endpoint do modelo de serviço otimizado para rotas estão em Pré-visualização Pública.
  • Consulte Limitações da tabela de inferência habilitada para AI Gateway para obter detalhes sobre as limitações da tabela de inferência.