GatewayAI para atendimento de endpoints
Experimente a nova versão beta do AI Gateway.
Uma nova experiência de Portal AI está disponível em versão Beta. O novo AI Gateway é o plano de controle empresarial para governar os endpoints LLM e os agentes de codificação com recursos aprimorados. Consulte AI Gateway (Beta).
Esta página descreve AI Gateway para o endpoint de serviço, que controla e monitora o acesso aos modelos AI generativos suportados e seus respectivos endpoints de modelo de serviço.
O que é um Gateway AI para endpoints de atendimento?
AI Gateway foi projetado para simplificar o uso e o gerenciamento de modelos e agentes AI generativa dentro de uma organização. É um serviço centralizado que traz governança, monitoramento e prontidão de produção para instalações modelo endpoint. Isso também permite executar, proteger e governar o tráfego AI para democratizar e acelerar a adoção AI em sua organização.
Todos os dados são registrados em tabelas Delta no Unity Catalog.
Para começar a visualizar as informações relevantes dos seus dados AI Gateway, download o painel de exemplo AI Gateway do GitHub. Este painel de controle utiliza os dados das tabelas de inferência de acompanhamento de uso e registro de carga útil.
Após download o arquivo JSON , importe o painel para seu workspace. Para obter instruções sobre como importar painéis, consulte Importar um arquivo de painel.
Recurso suportado
Portal AI (Beta)
O novo AI Gateway (Beta) oferece uma interface de usuário rica, observabilidade aprimorada e cobertura API expandida para LLMs, incluindo modelos externos e APIsde modelos Foundation com pagamento por token. Recomendamos o uso do AI Gateway (Beta) para desbloquear esses novos recursos.
A tabela a seguir define os recursos disponíveis AI Gateway e quais tipos endpoint do Servindo Modelo os suportam.
Recurso | Definição | Provisionamento APIs do Foundation Model Taxa de transferência endpoint | ||||
|---|---|---|---|---|---|---|
Disponível no AI Gateway (Beta) | Use o recurso aprimorado AI Gateway. Consulte AI Gateway (Beta). | Apoiado | Apoiado | Não suportado | Não suportado | Não suportado |
Permissão e limitação de taxas | Controle quem tem acesso e qual o nível de acesso. | Apoiado | Apoiado | Apoiado | Não suportado | Apoiado |
Registro de carga útil | Monitorar e auditar os dados enviados para as APIs do modelo usando tabelas de inferência. | Apoiado | Apoiado | Apoiado | Apoiado | Apoiado |
Uso | Monitore o uso operacional no endpoint e os custos associados usando tabelas do sistema. | Apoiado | Apoiado | Apoiado | Não suportado | Apoiado |
Proteções de AI | Impeça a inclusão de dados indesejados e inseguros em solicitações e respostas. Consulte as diretrizesAI. | Apoiado | Apoiado | Apoiado | Não suportado | Não suportado |
Fallbacks | Minimize as interrupções na produção durante e após a implantação. | Apoiado | Não suportado | Não suportado | Não suportado | Não suportado |
Divisão de tráfego | Balancear a carga do tráfego entre os modelos. | Apoiado | Não suportado | Apoiado | Não suportado | Apoiado |
AI Gateway gera cobranças com base no recurso ativado. O recurso pago inclui registro de carga útil e acompanhamento de uso. Recursos como permissões de consulta, limitação de taxa, fallback e divisão de tráfego são gratuitos. Qualquer novo recurso está sujeito a cobrança.
ProteçõesAI
Visualização
Este recurso está em Pré-visualização Pública.
Os Guardrails AI permitem que os usuários configurem e apliquem compliance de dados no nível endpoint do modelo de serviço e reduzam o conteúdo prejudicial em quaisquer solicitações enviadas ao modelo subjacente. Solicitações e respostas inválidas são bloqueadas e uma mensagem default é retornada ao usuário. Veja como configurar proteções em um endpointdo modelo de serviço.
O serviço de moderação AI Guardrails depende dos modelos de pagamento por token APIs do Foundation Model. Essa dependência limita a disponibilidade do serviço de moderação AI Guardrails às regiões que suportam APIs do Foundation Model com pagamento por token. Regiões que exigem habilitação entre regiões geográficas para usar APIs do Foundation Model com pagamento por token não são compatíveis com as diretrizes AI .
A tabela a seguir resume as proteções configuráveis. Consulte as limitações.
Guarda-corpo | Definição |
|---|---|
Filtragem de segurança | A filtragem de segurança impede que seu modelo interaja com conteúdo inseguro e prejudicial, como crimes violentos, automutilação e discurso de ódio. O filtro de segurança do AI Gateway foi desenvolvido com o Meta Llama 3. O Databricks utiliza o Llama Guard 2-8b como filtro de segurança. Para saber mais sobre o filtro de segurança Llama Guard e os tópicos relacionados a ele, consulte o cartão do modelo Meta Llama Guard 2 8B. Meta Llama 3 está licenciado sob a Licença LLAMA 3 comunidade, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir compliance com as licenças modelo aplicáveis. |
Detecção de informações pessoalmente identificáveis (PII) | Os clientes podem detectar qualquer informação sensível, como números de cartão de crédito, dos usuários. Para este recurso, AI Gateway usa o Presidio para detectar as seguintes categorias de informações pessoais identificáveis (PII) dos EUA: números de cartão de crédito, endereços email , números de telefone, números account bancárias e números de segurança social. O classificador de PII pode ajudar a identificar informações sensíveis ou PII em dados estruturados e não estruturados. No entanto, como utiliza mecanismos de detecção automatizados, não há garantia de que o serviço encontrará todas as informações sensíveis. Consequentemente, sistemas e proteções adicionais devem ser empregados. Esses métodos de classificação são direcionados principalmente às categorias de informações pessoais identificáveis (PII) dos EUA, como números de telefone e números de segurança social. |
Use o AI Gateway
Você pode configurar o recurso AI Gateway no endpoint do seu modelo de serviço usando a interface de usuário do Serving. Consulte Configurar AI Gateway no endpoint do modelo de operação.
Limitações
A seguir, apresentamos as limitações para o endpoint habilitado para AI Gateway:
- Quando as proteções AI são usadas, o tamanho dos lotes de solicitação, ou seja, o tamanho dos lotes de embeddings, o tamanho dos lotes de conclusões ou o parâmetro
ndas solicitações de bate-papo, não pode exceder 16. - Se você usar chamadas de função e especificar diretrizes AI , essas diretrizes não serão aplicadas às solicitações e respostas intermediárias da função. No entanto, são aplicadas restrições à resposta final de saída.
- Cargas de trabalho de conversão de texto em imagem não são suportadas.
- Apenas o acompanhamento de uso é suportado para cargas de trabalho de inferência de lotes em endpoints de pagamento por token que tenham o recurso AI Gateway ativado. Na tabela do sistema
endpoint_usageapenas as linhas correspondentes à solicitação de inferência de lotes são visíveis. - As salvaguardas e os mecanismos de contingência AI não são suportados no endpoint do modelo de serviço personalizado.
- Para endpoints de modelo de serviço personalizado, somente cargas de trabalho que não são otimizadas para roteamento suportam limitação de taxa e acompanhamento de uso.
- As tabelas de inferência para o endpoint do modelo de serviço otimizado para rotas estão em Pré-visualização Pública.
- Consulte Limitações da tabela de inferência habilitada para AI Gateway para obter detalhes sobre as limitações da tabela de inferência.