Introdução ao Mosaic AI Gateway
Visualização
O Mosaic AI Gateway está em Public Preview e é compatível com us-east1
e us-central1
.
Este artigo descreve Mosaic AI Gateway, as soluções Databricks para governar e monitorar o acesso aos modelos generativos AI suportados e seu endpoint de modelo de serviço associado.
O que é o Mosaic AI Gateway?
Mosaic AI Gateway foi projetado para simplificar o uso e o gerenciamento de modelos e agentes generativos da AI em uma organização. É um serviço centralizado que traz governança, monitoramento e prontidão de produção para atender ao modelo de endpoint. Ele também permite que o senhor execute, proteja e controle o tráfego AI para democratizar e acelerar a adoção do AI em sua organização.
Todos os dados são registrados em tabelas Delta em Unity Catalog.
Para começar a visualizar percepções a partir de seus dados do AI Gateway, acesse download o exemplo de painel do AI Gateway em GitHub. Esse painel aproveita os dados das tabelas de inferência de acompanhamento de uso e de registro de carga útil.
Depois de acessar download o arquivo JSON, importe o painel de controle para o seu workspace. Para obter instruções sobre como importar painéis, consulte Importar um arquivo de painel.
Recurso suportado
Recurso | Definição | Modelo externo endpoint | Modelo de Fundação APIs provisionamento Taxa de transferência endpoint |
---|---|---|---|
Permissão e limitação de taxa | Controle quem tem acesso e quanto acesso. | Suportado | Suportado |
Registro de carga útil | Monitore e audite os dados que estão sendo enviados para modelar APIs usando tabelas de inferência. | Suportado | Suportado |
Uso acompanhamento | Monitorar o uso operacional no endpoint e os custos associados usando tabelas do sistema. | Suportado | Suportado |
AI Guarda-corpos | Evite dados indesejados e dados inseguros em solicitações e respostas. Consulte AI Guardrails. | Suportado | Suportado |
recuo | Minimize as interrupções de produção durante e após a implantação. Se uma solicitação roteada para um determinado modelo falhar, ela será redirecionada para o próximo modelo listado. | Suportado | Não suportado |
Divisão de tráfego | Balanceamento de carga do tráfego em todos os modelos. | Suportado | Suportado |
O Mosaic AI Gateway incorre em cobranças com base no recurso ativado. Durante a visualização, esses recursos pagos incluem AI Guardrails, registro de carga útil e acompanhamento de uso. Recursos como permissões de consulta, limitação de taxa, fallback e divisão de tráfego são gratuitos. Qualquer novo recurso está sujeito a cobrança.
AI Guarda-corpos
AI Os Guardrails permitem que os usuários configurem e apliquem os dados compliance no nível do modelo endpoint e reduzam o conteúdo prejudicial em qualquer solicitação enviada ao modelo subjacente. As solicitações e respostas incorretas são bloqueadas e uma mensagem default é retornada ao usuário. Veja como configurar grades de proteção em um modelo servindo endpoint.
O serviço de moderação do AI Guardrails depende dos modelos de pagamento por tokens do Foundation Model APIs. Essa dependência limita a disponibilidade do serviço de moderação do AI Guardrails às regiões que oferecem suporte ao modelo da Fundação APIs pay-per-tokens.
A tabela a seguir resume as grades de proteção configuráveis. Consulte Limitações.
Guardrail | Definição |
---|---|
Filtragem de segurança | A filtragem de segurança impede que seu modelo interaja com conteúdo inseguro e prejudicial, como crimes violentos, automutilação e discurso de ódio. O filtro de segurança do AI Gateway foi criado com o Meta Llama 3. A Databricks usa o Llama Guard 2-8b como filtro de segurança. Para saber mais sobre o filtro de segurança Llama Guard e quais tópicos se aplicam ao filtro de segurança, consulte o cartão do modelo Meta Llama Guard 2 8B. O Meta Llama 3 está licenciado sob a Licença da comunidade LLAMA 3, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir o compliance com as licenças de modelo aplicáveis. |
Detecção de informações de identificação pessoal (PII) | Os clientes podem detectar quaisquer informações confidenciais, como nomes, endereços e números de cartão de crédito dos usuários. Para esse recurso, o AI Gateway usa o Presidio para detectar as seguintes categorias de PII dos EUA: números de cartão de crédito, endereços email, números de telefone, números bancários account e números de previdência social. O classificador de PII pode ajudar a identificar informações confidenciais ou PII em dados estruturados e não estruturados. No entanto, como ele usa mecanismos de detecção automatizados, não há garantia de que o serviço encontrará todas as informações confidenciais. Consequentemente, sistemas e proteções adicionais devem ser empregados. Esses métodos de classificação têm como escopo principal as categorias de PII dos EUA, como números de telefone e números de previdência social dos EUA. |
Moderação de tópicos | Capacidade de listar um conjunto de tópicos permitidos. Dada uma solicitação de bate-papo, essa grade de proteção sinaliza a solicitação se o tópico não estiver nos tópicos permitidos. |
Filtragem por palavra-chave | Os clientes podem especificar diferentes conjuntos de palavras-chave inválidas tanto para a entrada quanto para a saída. Um possível caso de uso da filtragem de palavras-chave é que o modelo não fale sobre concorrentes. Essa barreira usa correspondência de palavras-chave ou cadeias de caracteres para decidir se a palavra-chave existe no conteúdo da solicitação ou da resposta. |
Usar o AI Gateway
O senhor pode configurar o recurso AI Gateway em seu endpoint modelo servindo usando a Serving UI. Consulte Configure AI Gateway on servindo modelo endpoint.
Limitações
-
O AI Gateway é compatível apenas com:
- Foundation Model APIs provisionamento Taxa de transferência servindo modelo endpoint. Somente os modelos GTE-En e BGE-En são compatíveis com o provisionamento da Taxa de transferência.
- servindo modelo endpoint que serve modelos externos.
-
Quando são usados os guardrails do AI, o tamanho dos lotes de solicitação de incorporação não pode exceder 16.
-
Para cargas de trabalho de Taxa de transferência de provisionamento, há suporte apenas para limitação de taxa e registro de carga útil usando tabelas de inferência habilitadas pelo AI Gateway.
-
Consulte Limitações da tabela de inferência habilitada para AI Gateway.
-
Se o senhor usar a chamada de função e especificar AI guardrails, esses guardrails não serão aplicados às solicitações e às respostas intermediárias da função. No entanto, as grades de proteção são aplicadas à resposta final da saída.