Unity AI Gateway para servir endpoints
Experimente a nova versão beta do Unity AI Gateway.
Uma nova experiência do Unity AI Gateway está disponível em versão Beta. O novo Unity AI Gateway é o plano de controle empresarial para governar endpoints LLM e agentes de codificação com recursos aprimorados. Consulte o Unity AI Gateway para obter o endpoint LLM.
Esta página descreve o Unity AI Gateway para endpoint de serviço, que controla e monitora o acesso a modelos AI generativos suportados e seus respectivos endpoints de modelo de serviço.
O que é o Unity AI Gateway para servir endpoints?
O Unity AI Gateway foi projetado para simplificar o uso e o gerenciamento de modelos e agentes AI generativa dentro de uma organização. É um serviço centralizado que traz governança, monitoramento e prontidão de produção para instalações modelo endpoint. Isso também permite executar, proteger e governar o tráfego AI para democratizar e acelerar a adoção AI em sua organização.
Todos os dados são registrados em tabelas Delta no Unity Catalog.
Para começar a visualizar as informações esperadas a partir dos dados do seu Unity AI Gateway, download o painel de exemplo do Unity AI Gateway do GitHub. Este painel de controle utiliza os dados das tabelas de inferência de acompanhamento de uso e registro de carga útil.
Após download o arquivo JSON , importe o painel para seu workspace. Para obter instruções sobre como importar painéis, consulte Importar um arquivo de painel.
Recurso suportado
Portal AI Unity
O novo Unity AI Gateway oferece uma interface de usuário rica, observabilidade aprimorada e cobertura API expandida para LLMs, incluindo modelos externos e APIsde modelos Foundation com pagamento por token. Recomendamos o uso do Unity AI Gateway para desbloquear esses novos recursos.
A tabela a seguir define os recursos disponíveis do Unity AI Gateway e quais tipos endpoint do modelo de servir os suportam.
Recurso | Definição | Provisionamento APIs do Foundation Model Taxa de transferência endpoint | ||||
|---|---|---|---|---|---|---|
Disponível no Unity AI Gateway | Utilize o recurso aprimorado do Unity AI Gateway. Consulte o Unity AI Gateway para obter o endpoint LLM. | Apoiado | Apoiado | Não suportado | Não suportado | Não suportado |
Permissão e limitação de taxas | Controle quem tem acesso e qual o nível de acesso. | Apoiado | Apoiado | Apoiado | Não suportado | Apoiado |
Registro de carga útil | Monitorar e auditar os dados enviados para as APIs do modelo usando tabelas de inferência. | Apoiado | Apoiado | Apoiado | Apoiado | Apoiado |
Uso | Monitore o uso operacional no endpoint e os custos associados usando tabelas do sistema. | Apoiado | Apoiado | Apoiado | Não suportado | Apoiado |
Proteções de AI | Impeça a inclusão de dados indesejados e inseguros em solicitações e respostas. Consulte as diretrizesAI. | Apoiado | Apoiado | Apoiado | Não suportado | Não suportado |
Fallbacks | Minimize as interrupções na produção durante e após a implantação. | Apoiado | Não suportado | Não suportado | Não suportado | Não suportado |
Divisão de tráfego | Balancear a carga do tráfego entre os modelos. | Apoiado | Não suportado | Apoiado | Não suportado | Apoiado |
O Unity AI Gateway gera cobranças com base no recurso ativado. O recurso pago inclui registro de carga útil e acompanhamento de uso. Recursos como permissões de consulta, limitação de taxa, fallback e divisão de tráfego são gratuitos. Qualquer novo recurso está sujeito a cobrança.
ProteçõesAI
Visualização
Este recurso está em Pré-visualização Pública.
Os Guardrails AI permitem que os usuários configurem e apliquem compliance de dados no nível endpoint do modelo de serviço e reduzam o conteúdo prejudicial em quaisquer solicitações enviadas ao modelo subjacente. Solicitações e respostas inválidas são bloqueadas e uma mensagem default é retornada ao usuário. Veja como configurar proteções em um endpointdo modelo de serviço.
O serviço de moderação AI Guardrails depende dos modelos de pagamento por token APIs do Foundation Model. Essa dependência limita a disponibilidade do serviço de moderação AI Guardrails às regiões que suportam APIs do Foundation Model com pagamento por token.
A tabela a seguir resume as proteções configuráveis. Consulte as limitações.
Guarda-corpo | Definição |
|---|---|
Filtragem de segurança | A filtragem de segurança impede que seu modelo interaja com conteúdo inseguro e prejudicial, como crimes violentos, automutilação e discurso de ódio. O filtro de segurança do Unity AI Gateway foi desenvolvido com o Meta Llama 3. O Databricks utiliza o Llama Guard 2-8b como filtro de segurança. Para saber mais sobre o filtro de segurança Llama Guard e os tópicos relacionados a ele, consulte o cartão do modelo Meta Llama Guard 2 8B. Meta Llama 3 está licenciado sob a Licença LLAMA 3 comunidade, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir compliance com as licenças modelo aplicáveis. |
Detecção de informações pessoalmente identificáveis (PII) | Os clientes podem detectar qualquer informação sensível, como números de cartão de crédito, dos usuários. Para este recurso, o Unity AI Gateway usa o Presidio para detectar as seguintes categorias de informações pessoais identificáveis (PII) dos EUA: números de cartão de crédito, endereços email , números de telefone, números account bancárias e números de segurança social. O classificador de PII pode ajudar a identificar informações sensíveis ou PII em dados estruturados e não estruturados. No entanto, como utiliza mecanismos de detecção automatizados, não há garantia de que o serviço encontrará todas as informações sensíveis. Consequentemente, sistemas e proteções adicionais devem ser empregados. Esses métodos de classificação são direcionados principalmente às categorias de informações pessoais identificáveis (PII) dos EUA, como números de telefone e números de segurança social. |
Use o Unity AI Gateway
Você pode configurar o recurso Unity AI Gateway no endpoint do seu modelo de serviço usando a interface de usuário de serviço (Serving UI). Consulte Configurar o Unity AI Gateway no endpoint do modelo específico.
Limitações
A seguir, estão as limitações para o endpoint habilitado para Unity AI Gateway:
- Quando as proteções AI são usadas, o tamanho dos lotes de solicitação, ou seja, o tamanho dos lotes de embeddings, o tamanho dos lotes de conclusões ou o parâmetro
ndas solicitações de bate-papo, não pode exceder 16. - Se você usar chamadas de função e especificar diretrizes AI , essas diretrizes não serão aplicadas às solicitações e respostas intermediárias da função. No entanto, são aplicadas restrições à resposta final de saída.
- Cargas de trabalho de conversão de texto em imagem não são suportadas.
- Apenas o acompanhamento de uso é suportado para cargas de trabalho de inferência de lotes em endpoints de pagamento por token que tenham o recurso Unity AI Gateway ativado. Na tabela do sistema
endpoint_usageapenas as linhas correspondentes à solicitação de inferência de lotes são visíveis. - As salvaguardas e os mecanismos de contingência AI não são suportados no endpoint do modelo de serviço personalizado.
- Para endpoints de modelo de serviço personalizado, somente cargas de trabalho que não são otimizadas para roteamento suportam limitação de taxa e acompanhamento de uso.
- As tabelas de inferência para o endpoint do modelo de serviço otimizado para rotas estão em Pré-visualização Pública.
- Consulte Limitações da tabela de inferência habilitada para Unity AI Gateway para obter detalhes sobre as limitações da tabela de inferência.