Configurar o AI Gateway no endpoint modelo servindo
Neste artigo, o senhor aprenderá a configurar o Mosaic AI Gateway em um modelo de serviço endpoint.
Requisitos
-
Um Databricks workspace em uma das seguintes regiões:
- Uma região com suporte de modelos externos
- A Foundation Model APIs suportou a região para provisionamento Taxa de transferência ou pay-per-tokens.
-
A servindo o modelo endpoint. O senhor pode usar um dos endpoints pré-configurados de pay-per-tokens em seu site workspace ou fazer o seguinte:
- Para criar um endpoint para modelos externos, conclua as etapas 1 e 2 de Criar um modelo de serviço externo endpoint.
- Para criar um endpoint para provisionamento Taxa de transferência, consulte provisionamento Taxa de transferência Foundation Model APIs.
Configurar o AI Gateway usando a UI
Na seção AI Gateway da página de criação endpoint, é possível configurar individualmente o recurso AI Gateway. Consulte Recurso suportado para saber quais recursos estão disponíveis no endpoint de modelo de serviço externo e no endpoint de taxa de transferência de provisionamento.
A tabela a seguir resume como configurar o AI Gateway durante a criação do endpoint usando a UI de serviço. Se o senhor preferir fazer isso de forma programática, consulte o exemplo do Notebook.
Recurso | Como habilitar | Detalhes |
---|---|---|
Uso acompanhamento | Selecione Ativar acompanhamento de uso para ativar o acompanhamento e o monitoramento do uso de dados métricos. Esse recurso é ativado por default para o endpoint pay-per-tokens . |
|
Registro de carga útil | Selecione Enable inference tables (Ativar tabelas de inferência ) para automaticamente log solicitações e respostas de seu endpoint em Delta tabelas gerenciadas por Unity Catalog. |
|
| ||
Limites de taxa | Selecione Rate limits (Limites de taxa ) para aplicar limites de taxa de solicitação que gerenciam o tráfego para o seu endpoint por usuário e por endpoint. |
|
Divisão de tráfego | Na seção Entidades atendidas , especifique a porcentagem do tráfego que você deseja que seja roteado para modelos específicos. Para configurar a divisão de tráfego em seu endpoint de forma programática, consulte Servir vários modelos externos a um endpoint. |
|
recuo | Selecione Enable fallback (Ativar fallback ) na seção AI Gateway para enviar sua solicitação a outros modelos atendidos no endpoint como um fallback. |
|
O diagrama a seguir mostra um exemplo em que,
- Três entidades atendidas são atendidas em um modelo de atendimento endpoint.
- A solicitação foi originalmente roteada para a entidade servida 3 .
- Se a solicitação retornar uma resposta 200, a solicitação foi bem-sucedida na entidade Served 3 e a solicitação e sua resposta serão registradas nas tabelas de acompanhamento de uso e de registro de carga útil do site endpoint.
- Se a solicitação retornar um erro 429 ou 5xx na entidade atendida 3 , a solicitação voltará para a próxima entidade atendida no site endpoint, entidade atendida 1 .
- Se a solicitação retornar um erro 429 ou 5xx na entidade atendida 1 , a solicitação voltará para a próxima entidade atendida no site endpoint, entidade atendida 2 .
- Se a solicitação retornar um erro 429 ou 5xx na entidade servida 2 , a solicitação falhará, pois esse é o número máximo de entidades de retorno. A solicitação com falha e o erro de resposta são registrados nas tabelas de acompanhamento de uso e de registro de carga útil.
Configurar AI Guardrails na interface do usuário
A tabela a seguir mostra como configurar os guardrails suportados.
Guardrail | Como habilitar | Detalhes |
---|---|---|
Segurança | Selecione Segurança para ativar salvaguardas para impedir que seu modelo interaja com conteúdo inseguro e prejudicial. | |
Detecção de informações de identificação pessoal (PII) | Selecione Detecção de PII para detectar dados de PII, como nomes, endereços e números de cartão de crédito. | |
Tópicos válidos | Você pode digitar tópicos diretamente nesse campo. Se você tiver várias entradas, certifique-se de pressionar enter após cada tópico. Como alternativa, o senhor pode acessar upload um arquivo | Um máximo de 50 tópicos válidos podem ser especificados. Cada tópico não pode exceder 100 caracteres |
Palavras-chave inválidas | Você pode digitar tópicos diretamente nesse campo. Se você tiver várias entradas, certifique-se de pressionar enter após cada tópico. Como alternativa, o senhor pode acessar upload um arquivo | É possível especificar no máximo 50 palavras-chave inválidas. Cada palavra-chave não pode exceder 100 caracteres. |
Uso de esquemas de tabelas de acompanhamento
As seções a seguir resumem os esquemas de tabela de acompanhamento de uso para as tabelas de sistema system.serving.served_entities
e system.serving.endpoint_usage
.
system.serving.served_entities
uso acompanhamento esquema de tabela
A tabela do sistema de acompanhamento de uso system.serving.served_entities
atualmente não é compatível com o ponto de extremidade pay-per-tokens.
A tabela do sistema de acompanhamento de uso system.serving.served_entities
tem o seguinte esquema:
Nome da coluna | Descrição | Tipo |
---|---|---|
| O ID exclusivo da entidade atendida. | String |
| O cliente account ID para Delta Sharing. | String |
| O cliente workspace ID do serviço endpoint. | String |
| O ID do criador. | String |
| O nome do endpoint de serviço. | String |
| A ID exclusiva do endpoint de atendimento. | String |
| O nome da entidade atendida. | String |
| Tipo da entidade que é atendida. Pode ser | String |
| O nome subjacente da entidade. Diferente do | String |
| A versão da entidade servida. | String |
| A versão da configuração do site endpoint. | INT |
| O tipo de tarefa. Pode ser | String |
| Configurações para modelos externos. Por exemplo, | struct |
| Configurações para modelos de fundação. Por exemplo, | struct |
| Configurações para modelos personalizados. Por exemplo, | struct |
| Configurações para especificações de recurso. Por exemplo, | struct |
| Carimbo de data e hora da mudança para a entidade atendida. | Timestamp |
| Carimbo de data e hora da exclusão da entidade. O endpoint é o contêiner da entidade atendida. Depois que o endpoint é excluído, a entidade servida também é excluída. | Timestamp |
system.serving.endpoint_usage
uso acompanhamento esquema de tabela
A tabela do sistema de acompanhamento de uso system.serving.endpoint_usage
tem o seguinte esquema:
Nome da coluna | Descrição | Tipo |
---|---|---|
| O cliente account ID. | String |
| O cliente workspace id do serviço endpoint. | String |
| O identificador de solicitação fornecido pelo usuário que pode ser especificado no corpo da solicitação do modelo de serviço. | String |
| Um identificador de solicitação gerado pelo site Databricks anexado a todas as solicitações de servindo modelo. | String |
| O ID do usuário ou da entidade de serviço cujas permissões são usadas para a solicitação de invocação do serviço endpoint. | String |
| O código de status HTTP que foi retornado do modelo. | Integer |
| A data e hora em que a solicitação é recebida. | Timestamp |
| A contagem de tokens da entrada. | Long |
| A contagem de tokens da saída. | Long |
| A contagem de caracteres das cadeias de caracteres de entrada ou do prompt. | Long |
| A contagem de caracteres das strings de saída da resposta. | Long |
| O mapa fornecido pelo usuário contendo identificadores do usuário final ou do aplicativo do cliente que faz a chamada para o endpoint. Consulte Definir melhor o uso com | Mapa |
| Se a solicitação está no modo de transmissão. | Booleana |
| O ID exclusivo usado para join com a tabela de dimensão | String |
Defina ainda mais o uso com usage_context
Ao consultar um modelo externo com o acompanhamento de uso ativado, o senhor pode fornecer o parâmetro usage_context
com o tipo Map[String, String]
. O mapeamento do contexto de uso aparece na tabela de acompanhamento de uso na coluna usage_context
. O tamanho do mapa usage_context
não pode exceder 10 KiB.
Os administradores de conta podem agregar diferentes linhas com base no contexto de uso para obter percepções e podem join essas informações com as informações na tabela de registro de carga útil. Por exemplo, o senhor pode adicionar end_user_to_charge
ao usage_context
para acompanhar a atribuição de custos para os usuários finais.
{
"messages": [
{
"role": "user",
"content": "What is Databricks?"
}
],
"max_tokens": 128,
"usage_context":
{
"use_case": "external",
"project": "project1",
"priority": "high",
"end_user_to_charge": "abcde12345",
"a_b_test_group": "group_a"
}
}
Monitorar o uso do endpoint
Para monitorar o uso do endpoint, o senhor pode join as tabelas do sistema e as tabelas de inferência do seu endpoint.
unir tabelas do sistema
Esse exemplo só se aplica ao modelo externo e ao ponto de extremidade da Taxa de transferência de provisionamento, pois a tabela do sistema served_entities
não é compatível com o ponto de extremidade pay-per-tokens.
Para join as tabelas de sistema endpoint_usage
e served_entities
, use o seguinte SQL:
SELECT * FROM system.serving.endpoint_usage as eu
JOIN system.serving.served_entities as se
ON eu.served_entity_id = se.served_entity_id
WHERE created_by = "\<user_email\>";
unir tabelas de inferência e uso
A seguir, junte a tabela do sistema endpoint_usage
e a tabela de inferência para um pay-per-tokens endpoint. As tabelas de inferência e o acompanhamento do uso devem estar ativados no site endpoint para join essas tabelas.
SELECT * FROM system.serving.endpoint_usage AS endpoint_usage
JOIN
(SELECT DISTINCT(served_entity_id) AS fmapi_served_entity_id
FROM <inference table name>) fmapi_id
ON fmapi_id.fmapi_served_entity_id = endpoint_usage.served_entity_id;
Atualizar AI Recurso do gateway no endpoint
O senhor pode atualizar o AI Gateway recurso on servindo modelo de endpoint que os tinha ativado anteriormente e o endpoint que não os tinha. As atualizações das configurações do AI Gateway levam cerca de 20 a 40 segundos para serem aplicadas, mas as atualizações de limitação de taxa podem levar até 60 segundos.
A seguir, mostramos como atualizar o recurso do gateway AI em um modelo de serviço endpoint usando a Serving UI.
Na seção Gateway da página endpoint, é possível ver quais recursos estão ativados. Para atualizar esses recursos, clique em Edit AI Gateway .
Notebook exemplo
O Notebook a seguir mostra como ativar e usar programaticamente o recurso Databricks Mosaic AI Gateway para gerenciar e administrar modelos de provedores. Veja o PUT /api/2.0/serving-endpoint/{{name}/AI-gateway para obter detalhes da API REST.