Pular para o conteúdo principal

Introdução ao Mosaic AI Gateway

info

Visualização

O Mosaic AI Gateway está em Public Preview e é compatível com us-east1 e us-central1.

Este artigo descreve Mosaic AI Gateway, as soluções Databricks para governar e monitorar o acesso aos modelos generativos AI suportados e seu endpoint de modelo de serviço associado.

O que é o Mosaic AI Gateway?

Mosaic AI Gateway foi projetado para simplificar o uso e o gerenciamento de modelos e agentes generativos da AI em uma organização. É um serviço centralizado que traz governança, monitoramento e prontidão de produção para atender ao modelo de endpoint. Ele também permite que o senhor execute, proteja e controle o tráfego AI para democratizar e acelerar a adoção do AI em sua organização.

Todos os dados são registrados em tabelas Delta em Unity Catalog.

Para começar a visualizar percepções a partir de seus dados do AI Gateway, acesse download o exemplo de painel do AI Gateway em GitHub. Esse painel aproveita os dados das tabelas de inferência de acompanhamento de uso e de registro de carga útil.

Depois de acessar download o arquivo JSON, importe o painel de controle para o seu workspace. Para obter instruções sobre como importar painéis, consulte Importar um arquivo de painel.

Recurso suportado

Recurso

Definição

Modelo externo endpoint

Modelo de Fundação APIs provisionamento Taxa de transferência endpoint

Permissão e limitação de taxa

Controle quem tem acesso e quanto acesso.

Suportado

Suportado

Registro de carga útil

Monitore e audite os dados que estão sendo enviados para modelar APIs usando tabelas de inferência.

Suportado

Suportado

Uso acompanhamento

Monitorar o uso operacional no endpoint e os custos associados usando tabelas do sistema.

Suportado

Suportado

AI Guarda-corpos

Evite dados indesejados e dados inseguros em solicitações e respostas. Consulte AI Guardrails.

Suportado

Suportado

recuo

Minimize as interrupções de produção durante e após a implantação. Se uma solicitação roteada para um determinado modelo falhar, ela será redirecionada para o próximo modelo listado.

Suportado

Não suportado

Divisão de tráfego

Balanceamento de carga do tráfego em todos os modelos.

Suportado

Suportado

O Mosaic AI Gateway incorre em cobranças com base no recurso ativado. Durante a visualização, esses recursos pagos incluem AI Guardrails, registro de carga útil e acompanhamento de uso. Recursos como permissões de consulta, limitação de taxa, fallback e divisão de tráfego são gratuitos. Qualquer novo recurso está sujeito a cobrança.

AI Guarda-corpos

AI Os Guardrails permitem que os usuários configurem e apliquem os dados compliance no nível do modelo endpoint e reduzam o conteúdo prejudicial em qualquer solicitação enviada ao modelo subjacente. As solicitações e respostas incorretas são bloqueadas e uma mensagem default é retornada ao usuário. Veja como configurar grades de proteção em um modelo servindo endpoint.

important

O serviço de moderação do AI Guardrails depende dos modelos de pagamento por tokens do Foundation Model APIs. Essa dependência limita a disponibilidade do serviço de moderação do AI Guardrails às regiões que oferecem suporte ao modelo da Fundação APIs pay-per-tokens.

A tabela a seguir resume as grades de proteção configuráveis. Consulte Limitações.

Guardrail

Definição

Filtragem de segurança

A filtragem de segurança impede que seu modelo interaja com conteúdo inseguro e prejudicial, como crimes violentos, automutilação e discurso de ódio. O filtro de segurança do AI Gateway foi criado com o Meta Llama 3. A Databricks usa o Llama Guard 2-8b como filtro de segurança. Para saber mais sobre o filtro de segurança Llama Guard e quais tópicos se aplicam ao filtro de segurança, consulte o cartão do modelo Meta Llama Guard 2 8B. O Meta Llama 3 está licenciado sob a Licença da comunidade LLAMA 3, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir o compliance com as licenças de modelo aplicáveis.

Detecção de informações de identificação pessoal (PII)

Os clientes podem detectar quaisquer informações confidenciais, como nomes, endereços e números de cartão de crédito dos usuários. Para esse recurso, o AI Gateway usa o Presidio para detectar as seguintes categorias de PII dos EUA: números de cartão de crédito, endereços email, números de telefone, números bancários account e números de previdência social. O classificador de PII pode ajudar a identificar informações confidenciais ou PII em dados estruturados e não estruturados. No entanto, como ele usa mecanismos de detecção automatizados, não há garantia de que o serviço encontrará todas as informações confidenciais. Consequentemente, sistemas e proteções adicionais devem ser empregados. Esses métodos de classificação têm como escopo principal as categorias de PII dos EUA, como números de telefone e números de previdência social dos EUA.

Moderação de tópicos

Capacidade de listar um conjunto de tópicos permitidos. Dada uma solicitação de bate-papo, essa grade de proteção sinaliza a solicitação se o tópico não estiver nos tópicos permitidos.

Filtragem por palavra-chave

Os clientes podem especificar diferentes conjuntos de palavras-chave inválidas tanto para a entrada quanto para a saída. Um possível caso de uso da filtragem de palavras-chave é que o modelo não fale sobre concorrentes. Essa barreira usa correspondência de palavras-chave ou cadeias de caracteres para decidir se a palavra-chave existe no conteúdo da solicitação ou da resposta.

Usar o AI Gateway

O senhor pode configurar o recurso AI Gateway em seu endpoint modelo servindo usando a Serving UI. Consulte Configure AI Gateway on servindo modelo endpoint.

Limitações

  • O AI Gateway é compatível apenas com:

  • Quando são usados os guardrails do AI, o tamanho dos lotes de solicitação de incorporação não pode exceder 16.

  • Para cargas de trabalho de Taxa de transferência de provisionamento, há suporte apenas para limitação de taxa e registro de carga útil usando tabelas de inferência habilitadas pelo AI Gateway.

  • Consulte Limitações da tabela de inferência habilitada para AI Gateway.

  • Se o senhor usar a chamada de função e especificar AI guardrails, esses guardrails não serão aplicados às solicitações e às respostas intermediárias da função. No entanto, as grades de proteção são aplicadas à resposta final da saída.