Configurar o IA Gateway no endpoint do modelo de serviço
Neste artigo, o senhor aprenderá a configurar oMosaic AI Gateway em um modelo de serviço endpoint.
Requisitos
A Databricks workspace na região suportada pelo modelo de serviço.
Complete os passos 1 e 2 de Create an external servindo modelo endpoint.
Configurar o IA Gateway usando a interface do usuário
A seguir, mostramos como configurar o IA Gateway durante a criação do site endpoint usando a UI de serviço.
Na seção IA Gateway da página de criação endpoint, é possível configurar individualmente os seguintes recursos do IA Gateway:
Recurso |
Como habilitar |
Detalhes |
---|---|---|
Uso acompanhamento |
Selecione Ativar acompanhamento de uso para ativar o acompanhamento e o monitoramento do uso de dados métricos. |
|
Registro de carga útil |
Selecione Enable inference tables (Ativar tabelas de inferência ) para automaticamente log solicitações e respostas de seu endpoint em Delta tabelas gerenciadas por Unity Catalog. |
|
|
||
Limites de taxa |
O senhor pode impor limites de taxa de solicitação para gerenciar o tráfego do seu endpoint por usuário e por endpoint |
|
Roteamento de tráfego |
Para configurar o roteamento de tráfego em seu endpoint, consulte Servir vários modelos externos a um endpoint. |
Configurar IA Guardrails na interface do usuário
A tabela a seguir mostra como configurar os guardrails suportados.
Guardrail |
Como habilitar |
Detalhes |
---|---|---|
Segurança |
Selecione Segurança para ativar salvaguardas para impedir que seu modelo interaja com conteúdo inseguro e prejudicial. |
|
Detecção de informações de identificação pessoal (PII) |
Selecione Detecção de PII para detectar dados de PII, como nomes, endereços e números de cartão de crédito. |
|
Tópicos válidos |
Você pode digitar tópicos diretamente nesse campo. Se você tiver várias entradas, certifique-se de pressionar enter após cada tópico. Como alternativa, o senhor pode acessar upload um arquivo |
Um máximo de 50 tópicos válidos podem ser especificados. Cada tópico não pode exceder 100 caracteres |
Palavras-chave inválidas |
Você pode digitar tópicos diretamente nesse campo. Se você tiver várias entradas, certifique-se de pressionar enter após cada tópico. Como alternativa, o senhor pode acessar upload um arquivo |
É possível especificar no máximo 50 palavras-chave inválidas. Cada palavra-chave não pode exceder 100 caracteres. |
Uso de esquemas de tabelas de acompanhamento
A tabela do sistema de acompanhamento de uso system.serving.served_entities
tem o seguinte esquema:
Nome da coluna |
Descrição |
Tipo |
---|---|---|
|
O ID exclusivo da entidade atendida. |
String |
|
O cliente account ID para Delta Sharing. |
String |
|
O cliente workspace ID do serviço endpoint. |
String |
|
O ID do criador. |
String |
|
O nome do endpoint de serviço. |
String |
|
A ID exclusiva do endpoint de serviço. |
String |
|
O nome da entidade atendida. |
String |
|
Tipo da entidade que é atendida. Pode ser |
String |
|
O nome subjacente da entidade. Diferente do |
String |
|
A versão da entidade servida. |
String |
|
A versão da configuração do site endpoint. |
INT |
|
O tipo de tarefa. Pode ser |
String |
|
Configurações para modelos externos. Por exemplo, |
struct |
|
Configurações para modelos de fundação. Por exemplo, |
struct |
|
Configurações para modelos personalizados. Por exemplo, |
struct |
|
Configurações para especificações de recurso. Por exemplo, |
struct |
|
Carimbo de data e hora da mudança para a entidade atendida. |
Timestamp |
|
Carimbo de data e hora da exclusão da entidade. O endpoint é o contêiner da entidade atendida. Depois que o endpoint é excluído, a entidade servida também é excluída. |
Timestamp |
A tabela do sistema de acompanhamento de uso system.serving.endpoint_usage
tem o seguinte esquema:
Nome da coluna |
Descrição |
Tipo |
---|---|---|
|
O cliente account ID. |
String |
|
O cliente workspace id do serviço endpoint. |
String |
|
O identificador de solicitação fornecido pelo usuário que pode ser especificado no corpo da solicitação do modelo de serviço. |
String |
|
Um identificador de solicitação gerado pelo site Databricks anexado a todas as solicitações de servindo modelo. |
String |
|
O ID do usuário ou da entidade de serviço cujas permissões são usadas para a solicitação de invocação do serviço endpoint. |
String |
|
O código de status HTTP que foi retornado do modelo. |
Integer |
|
A data e hora em que a solicitação é recebida. |
Timestamp |
|
A contagem de tokens da entrada. |
Long |
|
A contagem de tokens da saída. |
Long |
|
A contagem de caracteres das cadeias de caracteres de entrada ou do prompt. |
Long |
|
A contagem de caracteres das strings de saída da resposta. |
Long |
|
O mapa fornecido pelo usuário contendo identificadores do usuário final ou do aplicativo do cliente que faz a chamada para o endpoint. Consulte Definir melhor o uso com usage_context. |
Mapa |
|
Se a solicitação está no modo de transmissão. |
Booleana |
|
O ID exclusivo usado para join com a tabela de dimensão |
String |
Defina melhor o uso com usage_context
Ao consultar um modelo externo com o acompanhamento de uso ativado, o senhor pode fornecer o parâmetro usage_context
com o tipo Map[String, String]
. O mapeamento do contexto de uso aparece na tabela de acompanhamento de uso na coluna usage_context
. Os administradores de conta podem agregar diferentes linhas com base no contexto de uso para obter percepções e podem join essas informações com as informações na tabela de registro de carga útil. Por exemplo, o senhor pode adicionar end_user_to_charge
ao usage_context
para acompanhar a atribuição de custos para usuários finais.
{
"messages": [
{
"role": "user",
"content": "What is Databricks?"
}
],
"max_tokens": 128,
"usage_context":
{
"use_case": "external",
"project": "project1",
"priority": "high",
"end_user_to_charge": "abcde12345",
"a_b_test_group": "group_a"
}
}
Esquema de tabela de inferência habilitado para IA Gateway
As tabelas de inferência ativadas usando o IA Gateway têm o seguinte esquema:
Nome da coluna |
Descrição |
Tipo |
---|---|---|
|
A data UTC em que a solicitação do modelo de serviço foi recebida. |
Data |
|
Um identificador de solicitação gerado pelo site Databricks anexado a todas as solicitações de servindo modelo. |
String |
|
Um identificador de solicitação opcional gerado pelo cliente que pode ser especificado no corpo da solicitação do modelo de serviço. |
String |
|
A data e hora em que a solicitação é recebida. |
Timestamp |
|
O código de status HTTP que foi retornado do modelo. |
INT |
|
A fração de amostragem usada no caso de a solicitação ter sido reduzida. Esse valor está entre 0 e 1, em que 1 representa que 100% das solicitações recebidas foram incluídas. |
double |
|
O tempo em milissegundos durante o qual o modelo realizou a inferência. Isso não inclui latências de rede aérea e representa apenas o tempo necessário para o modelo gerar previsões. |
BIGINT |
|
O corpo bruto da solicitação JSON que foi enviado para o modelo de serviço endpoint. |
String |
|
O corpo da resposta bruta JSON que foi retornado pelo modelo de serviço endpoint. |
String |
|
O ID exclusivo da entidade atendida. |
String |
|
matriz |
|
|
O ID do usuário ou da entidade de serviço cujas permissões são usadas para a solicitação de invocação do serviço endpoint. |
String |
Atualizar recurso do IA Gateway no endpoint
O senhor pode atualizar os recursos do IA Gateway nos endpoints que os tinham ativados anteriormente e nos endpoints que não os tinham. As atualizações das configurações do IA Gateway levam cerca de 20 a 40 segundos para serem aplicadas, mas as atualizações de limitação de taxa podem levar até 60 segundos.
A seguir, mostramos como atualizar o recurso do IA Gateway em um modelo de serviço endpoint usando a Serving UI.
Na seção Gateway da página endpoint, é possível ver quais recursos estão ativados. Para atualizar esses recursos, clique em Edit IA Gateway.