Pular para o conteúdo principal

Introdução ao Mosaic AI Gateway

Este artigo descreve Mosaic AI Gateway, as soluções Databricks para governar e monitorar o acesso aos modelos generativos AI suportados e seu endpoint de modelo de serviço associado.

O que é o Mosaic AI Gateway?

Mosaic AI Gateway foi projetado para simplificar o uso e o gerenciamento de modelos e agentes generativos da AI em uma organização. É um serviço centralizado que traz governança, monitoramento e prontidão de produção para atender ao modelo de endpoint. Ele também permite que o senhor execute, proteja e controle o tráfego AI para democratizar e acelerar a adoção do AI em sua organização.

Todos os dados são registrados em tabelas Delta em Unity Catalog.

Para começar a visualizar percepções a partir de seus dados do AI Gateway, acesse download o exemplo de painel do AI Gateway em GitHub. Esse painel aproveita os dados das tabelas de inferência de acompanhamento de uso e de registro de carga útil.

Depois de acessar download o arquivo JSON, importe o painel de controle para o seu workspace. Para obter instruções sobre como importar painéis, consulte Importar um arquivo de painel.

Recurso suportado

A tabela a seguir define o recurso de gateway AI disponível e quais tipos de modelo de serviço endpoint os suportam.

Recurso

Definição

Modelo externo endpoint

Modelo de Fundação APIs provisionamento Taxa de transferência endpoint

Modelo de fundação APIs pay-per-tokens endpoint

Mosaic AI agentes

Modelo personalizado endpoint

Permissão e limitação de taxa

Controle quem tem acesso e quanto acesso.

Suportado

Suportado

Suportado

Não suportado

Suportado

Registro de carga útil

Monitore e audite os dados que estão sendo enviados para modelar APIs usando tabelas de inferência.

Suportado

Suportado

Suportado

Suportado

Suportado

Uso acompanhamento

Monitorar o uso operacional no endpoint e os custos associados usando tabelas do sistema.

Suportado

Suportado

Suportado

Não suportado

Suportado

AI Guarda-corpos

Evite dados indesejados e inseguros em solicitações e respostas. Consulte AI Guardrails.

Suportado

Suportado

Suportado

Não suportado

Não suportado

recuo

Minimize as interrupções de produção durante e após a implantação.

Suportado

Não suportado

Não suportado

Não suportado

Não suportado

Divisão de tráfego

Balanceamento de carga do tráfego em todos os modelos.

Suportado

Suportado

Não suportado

Não suportado

Suportado

O Mosaic AI Gateway incorre em cobranças com base no recurso ativado. Os recursos pagos incluem registro de carga útil e acompanhamento de uso. Recursos como permissões de consulta, limitação de taxa, fallback e divisão de tráfego são gratuitos. Qualquer novo recurso está sujeito a cobrança.

AI Guarda-corpos

info

Visualização

Esse recurso está em Public Preview.

AI Os Guardrails permitem que os usuários configurem e apliquem os dados compliance no nível do modelo endpoint e reduzam o conteúdo prejudicial em qualquer solicitação enviada ao modelo subjacente. As solicitações e respostas incorretas são bloqueadas e uma mensagem default é retornada ao usuário. Veja como configurar grades de proteção em um modelo servindo endpoint.

important

O serviço de moderação do AI Guardrails depende dos modelos de pagamento por tokens do Foundation Model APIs. Essa dependência limita a disponibilidade do serviço de moderação do AI Guardrails às regiões que oferecem suporte ao modelo da Fundação APIs pay-per-tokens.

A tabela a seguir resume as grades de proteção configuráveis. Consulte Limitações.

nota

Após 30 de maio de 2025, a moderação de tópicos e a filtragem de palavras-chave AI guardrails não serão mais suportadas. Se esses recursos forem necessários para o seu fluxo de trabalho, entre em contato com a equipe Databricks account para participar do Custom guardrails Private Preview.

Guardrail

Definição

Filtragem de segurança

A filtragem de segurança impede que seu modelo interaja com conteúdo inseguro e prejudicial, como crimes violentos, automutilação e discurso de ódio. O filtro de segurança do AI Gateway foi criado com o Meta Llama 3. A Databricks usa o Llama Guard 2-8b como filtro de segurança. Para saber mais sobre o filtro de segurança Llama Guard e quais tópicos se aplicam ao filtro de segurança, consulte o cartão do modelo Meta Llama Guard 2 8B. O Meta Llama 3 está licenciado sob a Licença da comunidade LLAMA 3, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir o compliance com as licenças de modelo aplicáveis.

Detecção de informações de identificação pessoal (PII)

Os clientes podem detectar qualquer informação confidencial, como números de cartão de crédito dos usuários. Para esse recurso, o AI Gateway usa o Presidio para detectar as seguintes categorias de PII dos EUA: números de cartão de crédito, endereços email, números de telefone, números bancários account e números de previdência social. O classificador de PII pode ajudar a identificar informações confidenciais ou PII em dados estruturados e não estruturados. No entanto, como ele usa mecanismos de detecção automatizados, não há garantia de que o serviço encontrará todas as informações confidenciais. Consequentemente, sistemas e proteções adicionais devem ser empregados. Esses métodos de classificação têm como escopo principal as categorias de PII dos EUA, como números de telefone e números de previdência social dos EUA.

Usar o AI Gateway

O senhor pode configurar o recurso AI Gateway em seu endpoint modelo servindo usando a Serving UI. Consulte Configure AI Gateway on servindo modelo endpoint.

Limitações

A seguir, as limitações do endpoint habilitado para AI Gateway:

  • Quando AI guardrails são usados, o tamanho dos lotes de solicitação, ou seja, o tamanho dos lotes de embeddings, o tamanho dos lotes de complementos ou o parâmetro n das solicitações de chat, não pode exceder 16.
  • Se o senhor usar a chamada de função e especificar AI guardrails, esses guardrails não serão aplicados às solicitações e às respostas intermediárias da função. No entanto, as grades de proteção são aplicadas à resposta final da saída.
  • Não há suporte para cargas de trabalho de texto para imagem.
  • Somente o acompanhamento do uso é suportado para cargas de trabalho de inferência de lotes em endpoints pay-per-tokens que tenham o recurso AI Gateway ativado. Na tabela do sistema endpoint_usage, somente as linhas correspondentes à solicitação de inferência de lotes são visíveis.
  • AI não há suporte para guardrails e fallback no ponto de extremidade do modelo servindo personalizado.
  • Para o endpoint de modelo de serviço personalizado, somente as cargas de trabalho que não são otimizadas para a rota suportam limitação de taxa e acompanhamento de uso.
  • As tabelas de inferência para o ponto de extremidade de modelo de serviço otimizado de rota estão na visualização pública.
  • Consulte Limitações da tabela de inferência ativada pelo AI Gateway para obter detalhes sobre as limitações da tabela de inferência.
Esse artigo foi útil?