Configurar o IA Gateway no endpoint do modelo de serviço
Neste artigo, o senhor aprenderá a configurar oMosaic AI Gateway em um modelo de serviço endpoint.
Requisitos
A Databricks workspace em uma região suportada por modelos externos ou em uma região suportada pelo provisionamento Taxa de transferência.
A servindo o modelo endpoint.
Para criar um endpoint para modelos externos, conclua as etapas 1 e 2 de Criar um modelo de serviço externo endpoint.
Para criar um endpoint para provisionamento Taxa de transferência, consulte provisionamento Taxa de transferência Foundation Model APIs.
Configurar o IA Gateway usando a interface do usuário
Esta seção mostra como configurar o AI Gateway durante a criação do endpoint usando a UI de serviço. Se o senhor preferir fazer isso de forma programática, consulte o exemplo do Notebook.
Na seção AI Gateway da página de criação endpoint, é possível configurar individualmente o recurso AI Gateway. Consulte Recurso suportado para saber quais recursos estão disponíveis no endpoint de modelo de serviço externo e no endpoint de taxa de transferência de provisionamento.
Recurso |
Como habilitar |
Detalhes |
---|---|---|
Uso acompanhamento |
Selecione Ativar acompanhamento de uso para ativar o acompanhamento e o monitoramento do uso de dados métricos. |
|
Registro de carga útil |
Selecione Enable inference tables (Ativar tabelas de inferência ) para automaticamente log solicitações e respostas de seu endpoint em Delta tabelas gerenciadas por Unity Catalog. |
|
|
||
Limites de taxa |
O senhor pode impor limites de taxa de solicitação para gerenciar o tráfego do seu endpoint por usuário e por endpoint |
|
Roteamento de tráfego |
Para configurar o roteamento de tráfego em seu endpoint, consulte Servir vários modelos externos a um endpoint. |
Configurar IA Guardrails na interface do usuário
A tabela a seguir mostra como configurar os guardrails suportados.
Guardrail |
Como habilitar |
Detalhes |
---|---|---|
Segurança |
Selecione Segurança para ativar salvaguardas para impedir que seu modelo interaja com conteúdo inseguro e prejudicial. |
|
Detecção de informações de identificação pessoal (PII) |
Selecione Detecção de PII para detectar dados de PII, como nomes, endereços e números de cartão de crédito. |
|
Tópicos válidos |
Você pode digitar tópicos diretamente nesse campo. Se você tiver várias entradas, certifique-se de pressionar enter após cada tópico. Como alternativa, o senhor pode acessar upload um arquivo |
Um máximo de 50 tópicos válidos podem ser especificados. Cada tópico não pode exceder 100 caracteres |
Palavras-chave inválidas |
Você pode digitar tópicos diretamente nesse campo. Se você tiver várias entradas, certifique-se de pressionar enter após cada tópico. Como alternativa, o senhor pode acessar upload um arquivo |
É possível especificar no máximo 50 palavras-chave inválidas. Cada palavra-chave não pode exceder 100 caracteres. |
Uso de esquemas de tabelas de acompanhamento
A tabela do sistema de acompanhamento de uso system.serving.served_entities
tem o seguinte esquema:
Nome da coluna |
Descrição |
Tipo |
---|---|---|
|
O ID exclusivo da entidade atendida. |
String |
|
O cliente account ID para Delta Sharing. |
String |
|
O cliente workspace ID do serviço endpoint. |
String |
|
O ID do criador. |
String |
|
O nome do endpoint de serviço. |
String |
|
A ID exclusiva do endpoint de serviço. |
String |
|
O nome da entidade atendida. |
String |
|
Tipo da entidade que é atendida. Pode ser |
String |
|
O nome subjacente da entidade. Diferente do |
String |
|
A versão da entidade servida. |
String |
|
A versão da configuração do site endpoint. |
INT |
|
O tipo de tarefa. Pode ser |
String |
|
Configurações para modelos externos. Por exemplo, |
struct |
|
Configurações para modelos de fundação. Por exemplo, |
struct |
|
Configurações para modelos personalizados. Por exemplo, |
struct |
|
Configurações para especificações de recurso. Por exemplo, |
struct |
|
Carimbo de data e hora da mudança para a entidade atendida. |
Timestamp |
|
Carimbo de data e hora da exclusão da entidade. O endpoint é o contêiner da entidade atendida. Depois que o endpoint é excluído, a entidade servida também é excluída. |
Timestamp |
A tabela do sistema de acompanhamento de uso system.serving.endpoint_usage
tem o seguinte esquema:
Nome da coluna |
Descrição |
Tipo |
---|---|---|
|
O cliente account ID. |
String |
|
O cliente workspace id do serviço endpoint. |
String |
|
O identificador de solicitação fornecido pelo usuário que pode ser especificado no corpo da solicitação do modelo de serviço. |
String |
|
Um identificador de solicitação gerado pelo site Databricks anexado a todas as solicitações de servindo modelo. |
String |
|
O ID do usuário ou da entidade de serviço cujas permissões são usadas para a solicitação de invocação do serviço endpoint. |
String |
|
O código de status HTTP que foi retornado do modelo. |
Integer |
|
A data e hora em que a solicitação é recebida. |
Timestamp |
|
A contagem de tokens da entrada. |
Long |
|
A contagem de tokens da saída. |
Long |
|
A contagem de caracteres das cadeias de caracteres de entrada ou do prompt. |
Long |
|
A contagem de caracteres das strings de saída da resposta. |
Long |
|
O mapa fornecido pelo usuário contendo identificadores do usuário final ou do aplicativo do cliente que faz a chamada para o endpoint. Consulte Definir melhor o uso com usage_context. |
Mapa |
|
Se a solicitação está no modo de transmissão. |
Booleana |
|
O ID exclusivo usado para join com a tabela de dimensão |
String |
Defina melhor o uso com usage_context
Ao consultar um modelo externo com o acompanhamento de uso ativado, o senhor pode fornecer o parâmetro usage_context
com o tipo Map[String, String]
. O mapeamento do contexto de uso aparece na tabela de acompanhamento de uso na coluna usage_context
. O tamanho do mapa usage_context
não pode exceder 10 KiB.
Os administradores de conta podem agregar diferentes linhas com base no contexto de uso para obter percepções e podem join essas informações com as informações na tabela de registro de carga útil. Por exemplo, o senhor pode adicionar end_user_to_charge
ao usage_context
para acompanhar a atribuição de custos para os usuários finais.
{
"messages": [
{
"role": "user",
"content": "What is Databricks?"
}
],
"max_tokens": 128,
"usage_context":
{
"use_case": "external",
"project": "project1",
"priority": "high",
"end_user_to_charge": "abcde12345",
"a_b_test_group": "group_a"
}
}
Atualizar recurso do IA Gateway no endpoint
O senhor pode atualizar os recursos do IA Gateway nos endpoints que os tinham ativados anteriormente e nos endpoints que não os tinham. As atualizações das configurações do IA Gateway levam cerca de 20 a 40 segundos para serem aplicadas, mas as atualizações de limitação de taxa podem levar até 60 segundos.
A seguir, mostramos como atualizar o recurso do IA Gateway em um modelo de serviço endpoint usando a Serving UI.
Na seção Gateway da página endpoint, é possível ver quais recursos estão ativados. Para atualizar esses recursos, clique em Edit IA Gateway.