Monitorar modelos usando tabelas de inferência

info

Beta

Este recurso está em versão Beta. Os administradores da conta podem controlar o acesso a este recurso na página de pré-visualizações do console account . Veja as prévias do Gerenciador Databricks.

nota

Tabelas de inferência não são suportadas no GCP.

Esta página descreve como usar tabelas de inferência para monitorar o endpoint AI Gateway (Beta) .

O que são tabelas de inferência do AI Gateway?

As tabelas de inferência AI Gateway log as solicitações e respostas do seu endpoint do AI Gateway para as tabelas Delta Unity Catalog . Você pode usar esses dados para monitoramento, remoção e otimização de seus modelos.

Os casos de uso comuns incluem:

Descar : Analisar payloads de requisição e resposta para solucionar problemas.
monitoramento : Acompanhar o desempenho do modelo e identificar anomalias.
Otimização : Analise as interações para melhorar os prompts e as configurações do modelo.
Conformidade : Manter logs de auditoria de todas as interações com o modelo.

Requisitos

A versão beta (prévia) AI Gateway está ativada para sua account. Veja as prévias do Gerenciador Databricks.
Um workspace Databricks em uma região compatível com oAI Gateway (Beta).
Unity Catalog está habilitado para seu workspace. Consulte Ativar um workspace para Unity Catalog.
Tanto o criador do endpoint quanto o modificador devem ter a permissão "Pode gerenciar " o endpoint.
- CREATE TABLE permissão no catálogo e esquema especificados do Unity Catalog.
- USE CATALOG permissão no catálogo especificado.
- USE SCHEMA permissão no esquema especificado.
O catálogo não pode ser um catálogo Delta Sharing para o metastore atual.
A Databricks recomenda ativar a otimização preditiva para melhorar o desempenho.

Habilitar tabelas de inferência

As tabelas de inferência só podem ser configuradas depois de você criar um endpoint do AI Gateway.

Para ativar as tabelas de inferência:

Na barra lateral, clique em AI Gateway .
Clique no nome do endpoint para abrir a página do endpoint.
Clique em Configurar ao lado de Tabelas de inferência .
Especifique o catálogo e o esquema onde deseja armazenar a tabela de inferência.
Clique em Salvar .

O proprietário da tabela de inferência é o usuário que criou o endpoint. Todas as ACLs seguem as permissões padrão Unity Catalog e podem ser modificadas pelo proprietário da tabela.

nota

Não é possível especificar uma tabela existente. O Databricks cria automaticamente uma nova tabela de inferência quando você habilita as tabelas de inferência.

atenção

A tabela de inferência pode parar de registrar dados ou ficar corrompida se você fizer alguma das seguintes ações:

Alterar o esquema da tabela.
Alterar o nome da tabela.
Apague a tabela.

Desativar tabelas de inferência

Para desativar as tabelas de inferência:

Na barra lateral, clique em AI Gateway .
Clique no nome do endpoint para abrir a página do endpoint.
Clique no ícone de edição ao lado de Tabelas de inferência .
Clique em Desativar tabelas de inferência .

Consulte a tabela de inferência.

Você pode view a tabela na interface do usuário ou consultá-la a partir Databricks SQL ou de um Notebook.

Para view a tabela na interface do usuário, clique no link da tabela de inferência na página endpoint para abrir a tabela no Explorador de Catálogo.

Para consultar a tabela a partir Databricks SQL ou de um Notebook:

SQL
SELECT * FROM <catalog>.<schema>.<payload_table>

Substitua <catalog>, <schema> e <payload_table> pela localização da sua tabela.

Esquema da tabela de inferência

As tabelas de inferência do AI Gateway têm o seguinte esquema:

Nome da coluna	Tipo	Descrição	Exemplo
`request_id`	String	Um identificador único para a solicitação.	`7a99b43cb46c432bb0a7814217701909`
`request_tags`	Mapa	Etiquetas associadas à solicitação.	`{"team": "engineering"}`
`event_time`	Timestamp	O registro de data e hora em que a solicitação foi recebida.	`2024-05-17T13:47:13.282-07:00`
`status_code`	INT	O código de status HTTP da resposta.	`200`
`sampling_fraction`	double	A fração de amostragem caso tenha sido utilizada a subamostragem. Um valor de 1 significa que não houve subamostragem.	`1`
`latency_ms`	Long	A latência total em milissegundos.	`300`
`time_to_first_byte_ms`	Long	Tempo até o primeiro byte, em milissegundos.	`200`
`request`	String	O conteúdo bruto da requisição JSON.	`{"messages": [...], ...}`
`response`	String	A carga útil da resposta JSON bruta.	`{"choices": [...], ...}`
`destination_id`	String	O ID do modelo ou provedor de destino.	`7a99b43c-b46c-432b-b0a7-814217701909`
`logging_error_codes`	matriz	Códigos de erro se o registro falhar (por exemplo, `MAX_REQUEST_SIZE_EXCEEDED`).	`["MAX_RESPONSE_SIZE_EXCEEDED"]`
`requester`	String	O ID do usuário ou da entidade de serviço que fez a solicitação.	`databricks.engineer@databricks.com`
`schema_version`	String	A versão esquemática do registro da tabela de inferência.	`0`

Limitações

Entrega com o máximo empenho : os registros geralmente ficam disponíveis em poucos minutos após a solicitação, mas a entrega não é garantida.
Tamanho máximo da carga útil : Requisições e respostas maiores que 10 MiB não são consideradas logs. A coluna logging_error_codes indica quando isso ocorre com MAX_REQUEST_SIZE_EXCEEDED ou MAX_RESPONSE_SIZE_EXCEEDED.
Respostas de erro : os registros podem não ser preenchidos para solicitações que retornam erros 401, 403, 429 ou 500.

O que são tabelas de inferência do AI Gateway?​

Requisitos​

Habilitar tabelas de inferência​

Desativar tabelas de inferência​

Consulte a tabela de inferência.​

Esquema da tabela de inferência​

Limitações​

Próximos passos​