Monitorar modelos usando tabelas de inferência
Beta
Este recurso está em versão Beta. Os administradores da conta podem controlar o acesso a este recurso na página de pré-visualizações do console account . Veja as prévias do Gerenciador Databricks.
Esta página descreve como usar tabelas de inferência para monitorar o endpoint AI Gateway (Beta) .
O que são tabelas de inferência do AI Gateway?
As tabelas de inferência AI Gateway log as solicitações e respostas do seu endpoint do AI Gateway para as tabelas Delta Unity Catalog . Você pode usar esses dados para monitoramento, remoção e otimização de seus modelos.
Os casos de uso comuns incluem:
- Descar : Analisar payloads de requisição e resposta para solucionar problemas.
- monitoramento : Acompanhar o desempenho do modelo e identificar anomalias.
- Otimização : Analise as interações para melhorar os prompts e as configurações do modelo.
- Conformidade : Manter logs de auditoria de todas as interações com o modelo.
Requisitos
-
A versão beta (prévia) AI Gateway está ativada para sua account. Veja as prévias do Gerenciador Databricks.
-
Um workspace Databricks em uma região compatível com oAI Gateway (Beta).
-
Unity Catalog está habilitado para seu workspace. Consulte Ativar um workspace para Unity Catalog.
-
Tanto o criador do endpoint quanto o modificador devem ter a permissão "Pode gerenciar " o endpoint.
CREATE TABLEpermissão no catálogo e esquema especificados do Unity Catalog.USE CATALOGpermissão no catálogo especificado.USE SCHEMApermissão no esquema especificado.
-
O catálogo não pode ser um catálogo Delta Sharing para o metastore atual.
-
A Databricks recomenda ativar a otimização preditiva para melhorar o desempenho.
Habilitar tabelas de inferência
As tabelas de inferência só podem ser configuradas depois de você criar um endpoint do AI Gateway.
Para ativar as tabelas de inferência:
- Na barra lateral, clique em AI Gateway .
- Clique no nome do endpoint para abrir a página do endpoint.
- Clique em Configurar ao lado de Tabelas de inferência .
- Especifique o catálogo e o esquema onde deseja armazenar a tabela de inferência.
- Clique em Salvar .
O proprietário da tabela de inferência é o usuário que criou o endpoint. Todas as ACLs seguem as permissões padrão Unity Catalog e podem ser modificadas pelo proprietário da tabela.
Não é possível especificar uma tabela existente. O Databricks cria automaticamente uma nova tabela de inferência quando você habilita as tabelas de inferência.
A tabela de inferência pode parar de registrar dados ou ficar corrompida se você fizer alguma das seguintes ações:
- Alterar o esquema da tabela.
- Alterar o nome da tabela.
- Apague a tabela.
Desativar tabelas de inferência
Para desativar as tabelas de inferência:
- Na barra lateral, clique em AI Gateway .
- Clique no nome do endpoint para abrir a página do endpoint.
- Clique no ícone de edição ao lado de Tabelas de inferência .
- Clique em Desativar tabelas de inferência .
Consulte a tabela de inferência.
Você pode view a tabela na interface do usuário ou consultá-la a partir Databricks SQL ou de um Notebook.
Para view a tabela na interface do usuário, clique no link da tabela de inferência na página endpoint para abrir a tabela no Explorador de Catálogo.
Para consultar a tabela a partir Databricks SQL ou de um Notebook:
SELECT * FROM <catalog>.<schema>.<payload_table>
Substitua <catalog>, <schema> e <payload_table> pela localização da sua tabela.
Esquema da tabela de inferência
As tabelas de inferência do AI Gateway têm o seguinte esquema:
Nome da coluna | Tipo | Descrição | Exemplo |
|---|---|---|---|
| String | Um identificador único para a solicitação. |
|
| Mapa | Etiquetas associadas à solicitação. |
|
| Timestamp | O registro de data e hora em que a solicitação foi recebida. |
|
| INT | O código de status HTTP da resposta. |
|
| double | A fração de amostragem caso tenha sido utilizada a subamostragem. Um valor de 1 significa que não houve subamostragem. |
|
| Long | A latência total em milissegundos. |
|
| Long | Tempo até o primeiro byte, em milissegundos. |
|
| String | O conteúdo bruto da requisição JSON. |
|
| String | A carga útil da resposta JSON bruta. |
|
| String | O ID do modelo ou provedor de destino. |
|
| matriz | Códigos de erro se o registro falhar (por exemplo, |
|
| String | O ID do usuário ou da entidade de serviço que fez a solicitação. |
|
| String | A versão esquemática do registro da tabela de inferência. |
|
Limitações
- Entrega com o máximo empenho : os registros geralmente ficam disponíveis em poucos minutos após a solicitação, mas a entrega não é garantida.
- Tamanho máximo da carga útil : Requisições e respostas maiores que 10 MiB não são consideradas logs. A coluna
logging_error_codesindica quando isso ocorre comMAX_REQUEST_SIZE_EXCEEDEDouMAX_RESPONSE_SIZE_EXCEEDED. - Respostas de erro : os registros podem não ser preenchidos para solicitações que retornam erros 401, 403, 429 ou 500.