Pular para o conteúdo principal

Monitorar modelos usando tabelas de inferência

info

Beta

Este recurso está em versão Beta. Os administradores da conta podem controlar o acesso a este recurso na página de pré-visualizações do console account . Veja as prévias do Gerenciador Databricks.

Esta página descreve como usar tabelas de inferência para monitorar o endpoint AI Gateway (Beta) .

O que são tabelas de inferência do AI Gateway?

As tabelas de inferência AI Gateway log as solicitações e respostas do seu endpoint do AI Gateway para as tabelas Delta Unity Catalog . Você pode usar esses dados para monitoramento, remoção e otimização de seus modelos.

Os casos de uso comuns incluem:

  • Descar : Analisar payloads de requisição e resposta para solucionar problemas.
  • monitoramento : Acompanhar o desempenho do modelo e identificar anomalias.
  • Otimização : Analise as interações para melhorar os prompts e as configurações do modelo.
  • Conformidade : Manter logs de auditoria de todas as interações com o modelo.

Requisitos

  • A versão beta (prévia) AI Gateway está ativada para sua account. Veja as prévias do Gerenciador Databricks.

  • Um workspace Databricks em uma região compatível com oAI Gateway (Beta).

  • Unity Catalog está habilitado para seu workspace. Consulte Ativar um workspace para Unity Catalog.

  • Tanto o criador do endpoint quanto o modificador devem ter a permissão "Pode gerenciar " o endpoint.

    • CREATE TABLE permissão no catálogo e esquema especificados do Unity Catalog.
    • USE CATALOG permissão no catálogo especificado.
    • USE SCHEMA permissão no esquema especificado.
  • O catálogo não pode ser um catálogo Delta Sharing para o metastore atual.

  • A Databricks recomenda ativar a otimização preditiva para melhorar o desempenho.

Habilitar tabelas de inferência

As tabelas de inferência só podem ser configuradas depois de você criar um endpoint do AI Gateway.

Para ativar as tabelas de inferência:

  1. Na barra lateral, clique em AI Gateway .
  2. Clique no nome do endpoint para abrir a página do endpoint.
  3. Clique em Configurar ao lado de Tabelas de inferência .
  4. Especifique o catálogo e o esquema onde deseja armazenar a tabela de inferência.
  5. Clique em Salvar .

O proprietário da tabela de inferência é o usuário que criou o endpoint. Todas as ACLs seguem as permissões padrão Unity Catalog e podem ser modificadas pelo proprietário da tabela.

nota

Não é possível especificar uma tabela existente. O Databricks cria automaticamente uma nova tabela de inferência quando você habilita as tabelas de inferência.

atenção

A tabela de inferência pode parar de registrar dados ou ficar corrompida se você fizer alguma das seguintes ações:

  • Alterar o esquema da tabela.
  • Alterar o nome da tabela.
  • Apague a tabela.

Desativar tabelas de inferência

Para desativar as tabelas de inferência:

  1. Na barra lateral, clique em AI Gateway .
  2. Clique no nome do endpoint para abrir a página do endpoint.
  3. Clique no ícone de edição ao lado de Tabelas de inferência .
  4. Clique em Desativar tabelas de inferência .

Consulte a tabela de inferência.

Você pode view a tabela na interface do usuário ou consultá-la a partir Databricks SQL ou de um Notebook.

Para view a tabela na interface do usuário, clique no link da tabela de inferência na página endpoint para abrir a tabela no Explorador de Catálogo.

Para consultar a tabela a partir Databricks SQL ou de um Notebook:

SQL
SELECT * FROM <catalog>.<schema>.<payload_table>

Substitua <catalog>, <schema> e <payload_table> pela localização da sua tabela.

Esquema da tabela de inferência

As tabelas de inferência do AI Gateway têm o seguinte esquema:

Nome da coluna

Tipo

Descrição

Exemplo

request_id

String

Um identificador único para a solicitação.

7a99b43cb46c432bb0a7814217701909

request_tags

Mapa

Etiquetas associadas à solicitação.

{"team": "engineering"}

event_time

Timestamp

O registro de data e hora em que a solicitação foi recebida.

2024-05-17T13:47:13.282-07:00

status_code

INT

O código de status HTTP da resposta.

200

sampling_fraction

double

A fração de amostragem caso tenha sido utilizada a subamostragem. Um valor de 1 significa que não houve subamostragem.

1

latency_ms

Long

A latência total em milissegundos.

300

time_to_first_byte_ms

Long

Tempo até o primeiro byte, em milissegundos.

200

request

String

O conteúdo bruto da requisição JSON.

{"messages": [...], ...}

response

String

A carga útil da resposta JSON bruta.

{"choices": [...], ...}

destination_id

String

O ID do modelo ou provedor de destino.

7a99b43c-b46c-432b-b0a7-814217701909

logging_error_codes

matriz

Códigos de erro se o registro falhar (por exemplo, MAX_REQUEST_SIZE_EXCEEDED).

["MAX_RESPONSE_SIZE_EXCEEDED"]

requester

String

O ID do usuário ou da entidade de serviço que fez a solicitação.

databricks.engineer@databricks.com

schema_version

String

A versão esquemática do registro da tabela de inferência.

0

Limitações

  • Entrega com o máximo empenho : os registros geralmente ficam disponíveis em poucos minutos após a solicitação, mas a entrega não é garantida.
  • Tamanho máximo da carga útil : Requisições e respostas maiores que 10 MiB não são consideradas logs. A coluna logging_error_codes indica quando isso ocorre com MAX_REQUEST_SIZE_EXCEEDED ou MAX_RESPONSE_SIZE_EXCEEDED.
  • Respostas de erro : os registros podem não ser preenchidos para solicitações que retornam erros 401, 403, 429 ou 500.

Próximos passos