Unity AI Gateway para servir endpoints

info

Experimente a nova versão beta do Unity AI Gateway.

Uma nova experiência do Unity AI Gateway está disponível em versão Beta. O novo Unity AI Gateway é o plano de controle empresarial para governar endpoints LLM e agentes de codificação com recursos aprimorados. Consulte o Unity AI Gateway para agentes e LLMs.

Esta página descreve o Unity AI Gateway para endpoint de serviço, que controla e monitora o acesso a modelos AI generativos suportados e seus respectivos endpoints de modelo de serviço.

O que é o Unity AI Gateway para servir endpoints?

O Unity AI Gateway foi projetado para simplificar o uso e o gerenciamento de modelos e agentes AI generativa dentro de uma organização. É um serviço centralizado que traz governança, monitoramento e prontidão de produção para instalações modelo endpoint. Isso também permite executar, proteger e governar o tráfego AI para democratizar e acelerar a adoção AI em sua organização.

Todos os dados são registrados em tabelas Delta no Unity Catalog.

Para começar a visualizar as informações esperadas a partir dos dados do seu Unity AI Gateway, download o painel de exemplo do Unity AI Gateway do GitHub. Este painel de controle utiliza os dados das tabelas de inferência de acompanhamento de uso e registro de carga útil.

Após download o arquivo JSON , importe o painel para seu workspace. Para obter instruções sobre como importar painéis, consulte Importar um arquivo de painel.

Recurso suportado

info

Portal AI Unity

O novo Unity AI Gateway oferece uma interface de usuário rica, observabilidade aprimorada e cobertura API expandida para LLMs, incluindo modelos externos e APIsde modelos Foundation com pagamento por token. Recomendamos o uso do Unity AI Gateway para desbloquear esses novos recursos.

A tabela a seguir define os recursos disponíveis do Unity AI Gateway e quais tipos endpoint do modelo de servir os suportam.

Recurso	Definição	endpoint do modelo externo	endpointde pagamento por tokens APIs do Foundation Model	Provisionamento APIs do Foundation Model Taxa de transferência endpoint	Agentes Databricks	endpoint do modelo personalizado
Disponível no Unity AI Gateway	Utilize o recurso aprimorado do Unity AI Gateway. Consulte o Unity AI Gateway para agentes e LLMs.	Apoiado	Apoiado	Não suportado	Não suportado	Não suportado
Permissão e limitação de taxas	Controle quem tem acesso e qual o nível de acesso.	Apoiado	Apoiado	Apoiado	Não suportado	Apoiado
Registro de carga útil	Monitorar e auditar os dados enviados para as APIs do modelo usando tabelas de inferência.	Apoiado	Apoiado	Apoiado	Apoiado	Apoiado
Uso	Monitore o uso operacional no endpoint e os custos associados usando tabelas do sistema.	Apoiado	Apoiado	Apoiado	Não suportado	Apoiado
Proteções de AI	Impeça a inclusão de dados indesejados e inseguros em solicitações e respostas. Consulte as diretrizesAI.	Apoiado	Apoiado	Apoiado	Não suportado	Não suportado
Fallbacks	Minimize as interrupções na produção durante e após a implantação.	Apoiado	Não suportado	Não suportado	Não suportado	Não suportado
Divisão de tráfego	Balancear a carga do tráfego entre os modelos.	Apoiado	Não suportado	Apoiado	Não suportado	Apoiado

O Unity AI Gateway gera cobranças com base no recurso ativado. O recurso pago inclui registro de carga útil e acompanhamento de uso. Recursos como permissões de consulta, limitação de taxa, fallback e divisão de tráfego são gratuitos. Qualquer novo recurso está sujeito a cobrança.

ProteçõesAI

info

Visualização

Este recurso está em Pré-visualização Pública.

Os Guardrails AI permitem que os usuários configurem e apliquem compliance de dados no nível endpoint do modelo de serviço e reduzam o conteúdo prejudicial em quaisquer solicitações enviadas ao modelo subjacente. Solicitações e respostas inválidas são bloqueadas e uma mensagem default é retornada ao usuário. Veja como configurar proteções em um endpointdo modelo de serviço.

importante

O serviço de moderação AI Guardrails depende dos modelos de pagamento por token APIs do Foundation Model. Essa dependência limita a disponibilidade do serviço de moderação AI Guardrails às regiões que suportam APIs do Foundation Model com pagamento por token. Regiões que exigem habilitação entre regiões geográficas para usar APIs do Foundation Model com pagamento por token não são compatíveis com as diretrizes AI .

A tabela a seguir resume as proteções configuráveis. Consulte as limitações.

Guarda-corpo	Definição
Filtragem de segurança	A filtragem de segurança impede que seu modelo interaja com conteúdo inseguro e prejudicial, como crimes violentos, automutilação e discurso de ódio. O filtro de segurança do Unity AI Gateway foi desenvolvido com o Meta Llama 3. O Databricks utiliza o Llama Guard 2-8b como filtro de segurança. Para saber mais sobre o filtro de segurança Llama Guard e os tópicos relacionados a ele, consulte o cartão do modelo Meta Llama Guard 2 8B. Meta Llama 3 está licenciado sob a Licença LLAMA 3 comunidade, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir compliance com as licenças modelo aplicáveis.
Detecção de informações pessoalmente identificáveis (PII)	Os clientes podem detectar qualquer informação sensível, como números de cartão de crédito, dos usuários. Para este recurso, o Unity AI Gateway usa o Presidio para detectar as seguintes categorias de informações pessoais identificáveis (PII) dos EUA: números de cartão de crédito, endereços email , números de telefone, números account bancárias e números de segurança social. O classificador de PII pode ajudar a identificar informações sensíveis ou PII em dados estruturados e não estruturados. No entanto, como utiliza mecanismos de detecção automatizados, não há garantia de que o serviço encontrará todas as informações sensíveis. Consequentemente, sistemas e proteções adicionais devem ser empregados. Esses métodos de classificação são direcionados principalmente às categorias de informações pessoais identificáveis (PII) dos EUA, como números de telefone e números de segurança social.

Guarda-corpo

Definição

Filtragem de segurança

A filtragem de segurança impede que seu modelo interaja com conteúdo inseguro e prejudicial, como crimes violentos, automutilação e discurso de ódio.

O filtro de segurança do Unity AI Gateway foi desenvolvido com o Meta Llama 3. O Databricks utiliza o Llama Guard 2-8b como filtro de segurança. Para saber mais sobre o filtro de segurança Llama Guard e os tópicos relacionados a ele, consulte o cartão do modelo Meta Llama Guard 2 8B.

Meta Llama 3 está licenciado sob a Licença LLAMA 3 comunidade, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir compliance com as licenças modelo aplicáveis.

Detecção de informações pessoalmente identificáveis (PII)

Os clientes podem detectar qualquer informação sensível, como números de cartão de crédito, dos usuários.

Para este recurso, o Unity AI Gateway usa o Presidio para detectar as seguintes categorias de informações pessoais identificáveis (PII) dos EUA: números de cartão de crédito, endereços email , números de telefone, números account bancárias e números de segurança social.

O classificador de PII pode ajudar a identificar informações sensíveis ou PII em dados estruturados e não estruturados. No entanto, como utiliza mecanismos de detecção automatizados, não há garantia de que o serviço encontrará todas as informações sensíveis. Consequentemente, sistemas e proteções adicionais devem ser empregados.

Esses métodos de classificação são direcionados principalmente às categorias de informações pessoais identificáveis (PII) dos EUA, como números de telefone e números de segurança social.

Use o Unity AI Gateway

Você pode configurar o recurso Unity AI Gateway no endpoint do seu modelo de serviço usando a interface de usuário de serviço (Serving UI). Consulte Configurar o Unity AI Gateway no endpoint do modelo específico.

Limitações

A seguir, estão as limitações para o endpoint habilitado para Unity AI Gateway:

Quando as proteções AI são usadas, o tamanho dos lotes de solicitação, ou seja, o tamanho dos lotes de embeddings, o tamanho dos lotes de conclusões ou o parâmetro n das solicitações de bate-papo, não pode exceder 16.
Se você usar chamadas de função e especificar diretrizes AI , essas diretrizes não serão aplicadas às solicitações e respostas intermediárias da função. No entanto, são aplicadas restrições à resposta final de saída.
Cargas de trabalho de conversão de texto em imagem não são suportadas.
Apenas o acompanhamento de uso é suportado para cargas de trabalho de inferência de lotes em endpoints de pagamento por token que tenham o recurso Unity AI Gateway ativado. Na tabela do sistema endpoint_usage apenas as linhas correspondentes à solicitação de inferência de lotes são visíveis.
As salvaguardas e os mecanismos de contingência AI não são suportados no endpoint do modelo de serviço personalizado.
Para endpoints de modelo de serviço personalizado, somente cargas de trabalho que não são otimizadas para roteamento suportam limitação de taxa e acompanhamento de uso.
As tabelas de inferência para o endpoint do modelo de serviço otimizado para rotas estão em Pré-visualização Pública.
Consulte Limitações da tabela de inferência habilitada para Unity AI Gateway para obter detalhes sobre as limitações da tabela de inferência.

O que é o Unity AI Gateway para servir endpoints?​

Recurso suportado​

ProteçõesAI​

Use o Unity AI Gateway​

Limitações​

O que é o Unity AI Gateway para servir endpoints?

Recurso suportado

ProteçõesAI

Use o Unity AI Gateway

Limitações