Pular para o conteúdo principal

Configurar o AI Gateway no endpoint modelo servindo

Neste artigo, o senhor aprenderá a configurar o Mosaic AI Gateway em um modelo de serviço endpoint.

Requisitos

Configurar o AI Gateway usando a UI

Esta seção mostra como configurar o AI Gateway durante a criação do endpoint usando a UI de serviço. Se o senhor preferir fazer isso de forma programática, consulte o exemplo do Notebook.

Na seção AI Gateway da página de criação endpoint, é possível configurar individualmente o recurso AI Gateway. Consulte Recurso suportado para saber quais recursos estão disponíveis no endpoint de modelo de serviço externo e no endpoint de taxa de transferência de provisionamento.

RecursoComo habilitarDetalhes
Uso acompanhamentoSelecione Ativar acompanhamento de uso para ativar o acompanhamento e o monitoramento do uso de dados métricos.- O senhor deve ter o Unity Catalog ativado. - Os administradores de conta devem ativar o esquema de tabela do sistema de serviço antes de usar as tabelas do sistema: system.serving.endpoint_usage, que captura a contagem de tokens para cada solicitação para o site endpoint e system.serving.served_entities, que armazena metadados para cada modelo de fundação. - Ver Uso de esquemas de tabelas de acompanhamento - Somente os administradores do account têm permissão para view ou consultar a tabela served_entities ou endpoint_usage, embora o usuário que gerenciar o endpoint deva habilitar o acompanhamento do uso. Consulte Conceder acesso às tabelas do sistema - A contagem de tokens de entrada e saída é estimada como (text_length+1)/4 se a contagem de tokens não for retornada pelo modelo.
Registro de carga útilSelecione Enable inference tables (Ativar tabelas de inferência ) para automaticamente log solicitações e respostas de seu endpoint em Delta tabelas gerenciadas por Unity Catalog.- O senhor deve ter o Unity Catalog ativado e o acesso CREATE_TABLE no esquema de catálogo especificado. - As tabelas de inferência ativadas pelo AI Gateway têm um esquema diferente das tabelas de inferência criadas para o endpoint servindo modelo que serve modelos personalizados. Consulte o esquema da tabela de inferência habilitada pelo AI Gateway. - Os dados de registro de carga útil preenchem essas tabelas menos de uma hora após a consulta ao endpoint. - As cargas úteis maiores que 1 MB não são registradas. - A carga útil da resposta agrega a resposta de todos os fragmentos retornados. - A transmissão é suportada. Em cenários de transmissão, a carga útil da resposta agrega a resposta dos pedaços retornados.
AI Guarda-corposConsulte Configurar AI Guardrails na interface do usuário.- As grades de proteção evitam que o modelo interaja com conteúdo inseguro e prejudicial detectado nas entradas e saídas do modelo. - Os guardrails de saída não são compatíveis com os modelos de incorporação ou de transmissão.
Limites de taxaO senhor pode impor limites de taxa de solicitação para gerenciar o tráfego do seu endpoint por usuário e por endpoint- Os limites de taxa são definidos em consultas por minuto (QPM). - O default é No limit tanto por usuário quanto por endpoint.
Roteamento de tráfegoPara configurar o roteamento de tráfego em seu endpoint, consulte Servir vários modelos externos a um endpoint.

Configurar o recurso AI Gateway

Configurar AI Guardrails na interface do usuário

A tabela a seguir mostra como configurar os guardrails suportados.

GuardrailComo habilitarDetalhes
SegurançaSelecione Segurança para ativar salvaguardas para impedir que seu modelo interaja com conteúdo inseguro e prejudicial.
Detecção de informações de identificação pessoal (PII)Selecione Detecção de PII para detectar dados de PII, como nomes, endereços e números de cartão de crédito.
Tópicos válidosVocê pode digitar tópicos diretamente nesse campo. Se você tiver várias entradas, certifique-se de pressionar enter após cada tópico. Como alternativa, o senhor pode acessar upload um arquivo .csv ou .txt.Um máximo de 50 tópicos válidos podem ser especificados. Cada tópico não pode exceder 100 caracteres
Palavras-chave inválidasVocê pode digitar tópicos diretamente nesse campo. Se você tiver várias entradas, certifique-se de pressionar enter após cada tópico. Como alternativa, o senhor pode acessar upload um arquivo .csv ou .txt.É possível especificar no máximo 50 palavras-chave inválidas. Cada palavra-chave não pode exceder 100 caracteres.

Configure AI Guardrail recurso

Uso de esquemas de tabelas de acompanhamento

A tabela do sistema de acompanhamento de uso system.serving.served_entities tem o seguinte esquema:

Nome da colunaDescriçãoTipo
served_entity_idO ID exclusivo da entidade atendida.String
account_idO cliente account ID para Delta Sharing.String
workspace_idO cliente workspace ID do serviço endpoint.String
created_byO ID do criador.String
endpoint_nameO nome do endpoint de serviço.String
endpoint_idA ID exclusiva do endpoint de atendimento.String
served_entity_nameO nome da entidade atendida.String
entity_typeTipo da entidade que é atendida. Pode ser FEATURE_SPEC, EXTERNAL_MODEL, FOUNDATION_MODEL ou CUSTOM_MODELString
entity_nameO nome subjacente da entidade. Diferente do served_entity_name, que é um nome fornecido pelo usuário. Por exemplo, entity_name é o nome do modelo do Unity Catalog.String
entity_versionA versão da entidade servida.String
endpoint_config_versionA versão da configuração do site endpoint.INT
taskO tipo de tarefa. Pode ser llm/v1/chat, llm/v1/completions ou llm/v1/embeddings.String
external_model_configConfigurações para modelos externos. Por exemplo, {Provider: OpenAI}struct
foundation_model_configConfigurações para modelos de fundação. Por exemplo,{min_provisioned_throughput: 2200, max_provisioned_throughput: 4400}struct
custom_model_configConfigurações para modelos personalizados. Por exemplo,{ min_concurrency: 0, max_concurrency: 4, compute_type: CPU }struct
feature_spec_configConfigurações para especificações de recurso. Por exemplo, { min_concurrency: 0, max_concurrency: 4, compute_type: CPU }struct
change_timeCarimbo de data e hora da mudança para a entidade atendida.Timestamp
endpoint_delete_timeCarimbo de data e hora da exclusão da entidade. O endpoint é o contêiner da entidade atendida. Depois que o endpoint é excluído, a entidade servida também é excluída.Timestamp

A tabela do sistema de acompanhamento de uso system.serving.endpoint_usage tem o seguinte esquema:

Nome da colunaDescriçãoTipo
account_idO cliente account ID.String
workspace_idO cliente workspace id do serviço endpoint.String
client_request_idO identificador de solicitação fornecido pelo usuário que pode ser especificado no corpo da solicitação do modelo de serviço.String
databricks_request_idUm identificador de solicitação gerado pelo site Databricks anexado a todas as solicitações de servindo modelo.String
requesterO ID do usuário ou da entidade de serviço cujas permissões são usadas para a solicitação de invocação do serviço endpoint.String
status_codeO código de status HTTP que foi retornado do modelo.Integer
request_timeA data e hora em que a solicitação é recebida.Timestamp
input_token_countA contagem de tokens da entrada.Long
output_token_countA contagem de tokens da saída.Long
input_character_countA contagem de caracteres das cadeias de caracteres de entrada ou do prompt.Long
output_character_countA contagem de caracteres das strings de saída da resposta.Long
usage_contextO mapa fornecido pelo usuário contendo identificadores do usuário final ou do aplicativo do cliente que faz a chamada para o endpoint. Consulte Definir melhor o uso com usage_context.Mapa
request_streamingSe a solicitação está no modo de transmissão.Booleana
served_entity_idO ID exclusivo usado para join com a tabela de dimensão system.serving.served_entities para procurar informações sobre a entidade endpoint e servida.String

Defina ainda mais o uso com usage_context

Ao consultar um modelo externo com o acompanhamento de uso ativado, o senhor pode fornecer o parâmetro usage_context com o tipo Map[String, String]. O mapeamento do contexto de uso aparece na tabela de acompanhamento de uso na coluna usage_context. O tamanho do mapa usage_context não pode exceder 10 KiB.

Os administradores de conta podem agregar diferentes linhas com base no contexto de uso para obter percepções e podem join essas informações com as informações na tabela de registro de carga útil. Por exemplo, o senhor pode adicionar end_user_to_charge ao usage_context para acompanhar a atribuição de custos para os usuários finais.

Bash
{
"messages": [
{
"role": "user",
"content": "What is Databricks?"
}
],
"max_tokens": 128,
"usage_context":
{
"use_case": "external",
"project": "project1",
"priority": "high",
"end_user_to_charge": "abcde12345",
"a_b_test_group": "group_a"
}
}

Atualizar AI Recurso do gateway no endpoint

O senhor pode atualizar o AI Gateway recurso on servindo modelo de endpoint que os tinha ativado anteriormente e o endpoint que não os tinha. As atualizações das configurações do AI Gateway levam cerca de 20 a 40 segundos para serem aplicadas, mas as atualizações de limitação de taxa podem levar até 60 segundos.

A seguir, mostramos como atualizar o recurso do gateway AI em um modelo de serviço endpoint usando a Serving UI.

Na seção Gateway da página endpoint, é possível ver quais recursos estão ativados. Para atualizar esses recursos, clique em Edit AI Gateway .

Atualização AI Recurso do gateway

Notebook exemplo

O Notebook a seguir mostra como ativar e usar programaticamente o recurso Databricks Mosaic AI Gateway para gerenciar e administrar modelos de provedores. Veja a seguir os detalhes da API REST:

Habilitar Databricks Mosaic AI Gateway recurso Notebook

Open notebook in new tab

Recurso adicional