Pular para o conteúdo principal

Monitore o uso do endpoint do AI Gateway.

info

Beta

Este recurso está em versão Beta. Os administradores da conta podem controlar o acesso a este recurso na página de pré-visualizações do console account . Veja as prévias do Gerenciador Databricks.

Esta página descreve como monitorar o uso do endpoint do AI Gateway (Beta) usando a tabela de monitoramento de uso do sistema.

A tabela de acompanhamento de uso captura automaticamente detalhes de solicitações e respostas para um endpoint, registrando métricas essenciais como uso de tokens e latência. Você pode usar os dados desta tabela para monitorar o uso, acompanhar os custos e obter insights sobre o desempenho e o consumo endpoint .

Requisitos

Consulte a tabela de utilização.

AI Gateway logs os dados de uso na tabela de sistema system.ai_gateway.usage . Você pode view a tabela na interface do usuário ou consultá-la a partir Databricks SQL ou de um Notebook.

nota

Somente os administradores account têm permissão para view ou consultar a tabela system.ai_gateway.usage .

Para view a tabela na interface do usuário, clique no link "tabela de acompanhamento de uso" na página endpoint para abrir a tabela no Explorador de Catálogo.

Para consultar a tabela a partir Databricks SQL ou de um Notebook:

SQL
SELECT * FROM system.ai_gateway.usage;

painel de utilização integrado

Importar painel de utilização integrado

Os administradores de contas podem importar um painel de controle de uso AI Gateway integrado clicando em "Criar painel de controle" na página do AI Gateway para monitorar o uso, acompanhar os custos e obter informações sobre o desempenho e o consumo endpoint . O painel de controle é publicado com as permissões do administrador account , permitindo que os visualizadores executem consultas usando as permissões do editor. Consulte Publicar um painel para obter mais detalhes. Os administradores de contas também podem atualizar o data warehouse usado para executar consultas no painel de controle, o que se aplica a todas as consultas subsequentes.

Botão Criar painel de controle

nota

A importação do painel é restrita aos administradores account porque requer permissões SELECT na tabela system.ai_gateway.usage . Os dados do painel estão sujeitos às políticas de retenção da tabela usage . Consulte Quais tabelas de sistema estão disponíveis?

Para recarregar o painel de controle a partir do padrão mais recente, os administradores account podem clicar em "Reimportar painel de controle" na página AI Gateway. Isso atualiza o painel com quaisquer novas visualizações ou melhorias em relação ao padrão, preservando a configuração do seu armazém.

visualizar painel de utilização

Para view o painel de controle, clique em " Visualizar painel de controle" na página do AI Gateway. O painel de controle integrado oferece visibilidade completa do uso e desempenho endpoint AI Gateway. Inclui solicitações de acompanhamento de várias páginas, consumo de tokens, métricas de latência, taxas de erro e atividade do agente de codificação.

botão visualizar painel de controle

Painel de utilização do AI Gateway

O painel de controle fornece análises entreworkspace por default. Todas as páginas do painel de controle podem ser filtradas por intervalo de datas e ID workspace .

  • tabVisão geral : Exibe métricas de uso de alto nível, incluindo volume diário de solicitações, tendências de uso de tokens ao longo do tempo, principais usuários por consumo de tokens e número total de usuários únicos. Use esta tab para obter uma visão geral rápida da atividade AI Gateway e identificar os usuários e modelos mais ativos.
  • tabDesempenho : Monitora as key métricas de desempenho, incluindo percentis de latência (P50, P90, P95, P99), tempo até o primeiro byte, taxas de erro e distribuição de códigos de status HTTP. Use esta tab para monitorar a integridade endpoint e identificar gargalos de desempenho ou problemas de confiabilidade.
  • tabUso : Exibe detalhamentos do consumo por endpoint, workspace e solicitante. Esta tab mostra os padrões de uso de tokens, a distribuição de requisições e as taxas de acerto de cache para ajudar a analisar e otimizar custos.
  • tabAgentes de Codificação : Registra a atividade de agentes de codificação integrados, incluindo Cursor, Claude Code, Gemini CLI e Codex CLI. Esta tab mostra métricas como dias ativos, sessões de programação, commits e linhas de código adicionadas ou removidas para monitorar o uso das ferramentas de desenvolvimento. Consulte o painel do agente de codificação para obter mais detalhes.

Esquema da tabela de utilização

A tabela system.ai_gateway.usage tem o seguinte esquema:

Nome da coluna

Tipo

Descrição

Exemplo

account_id

String

O ID account .

11d77e21-5e05-4196-af72-423257f74974

workspace_id

String

O ID workspace .

1653573648247579

request_id

String

Um identificador único para a solicitação.

b4a47a30-0e18-4ae3-9a7f-29bcb07e0f00

schema_version

Integer

A versão esquemática do registro de uso.

1

endpoint_id

String

O ID exclusivo do endpoint do AI Gateway.

43addf89-d802-3ca2-bd54-fe4d2a60d58a

endpoint_name

String

O nome do endpoint do AI Gateway.

databricks-gpt-5-2

endpoint_tags

Mapa

Etiquetas associadas ao endpoint.

{"team": "engineering"}

endpoint_metadata

struct

Metadados do ponto de extremidade incluindo creator, creation_time, last_updated_time, destinations, inference_table e fallbacks.

{"creator": "user.name@email.com", "creation_time": "2026-01-06T12:00:00.000Z", ...}

event_time

Timestamp

O registro de data e hora em que a solicitação foi recebida.

2026-01-20T19:48:08.000+00:00

latency_ms

Long

A latência total em milissegundos.

300

time_to_first_byte_ms

Long

Tempo até o primeiro byte, em milissegundos.

300

destination_type

String

O tipo de destino (por exemplo, modelo externo ou modelo de fundação).

PAY_PER_TOKEN_FOUNDATION_MODEL

destination_name

String

O nome do modelo ou provedor de destino.

databricks-gpt-5-2

destination_id

String

O identificador único do destino.

507e7456151b3cc89e05ff48161efb87

destination_model

String

O modelo específico utilizado para a solicitação.

GPT-5.2

requester

String

O ID do usuário ou da entidade de serviço que fez a solicitação.

user.name@email.com

requester_type

String

O tipo de solicitante (usuário, entidade de serviço ou grupo de usuários).

USER

ip_address

String

O endereço IP do solicitante.

1.2.3.4

url

String

A URL da solicitação.

https://<ai-gateway-url>/mlflow/v1/chat/completions

user_agent

String

O agente do usuário do solicitante.

OpenAI/Python 2.13.0

api_type

String

O tipo de chamada de API (por exemplo, chat, autocompletar ou incorporar conteúdo).

mlflow/v1/chat/completions

request_tags

Mapa

Etiquetas associadas à solicitação.

{"team": "engineering"}

input_tokens

Long

O número de tokens de entrada.

100

output_tokens

Long

O número de tokens de saída.

100

total_tokens

Long

Número total de tokens (entrada + saída).

200

token_details

struct

Detalhamento dos tokens, incluindo cache_read_input_tokens, cache_creation_input_tokens e output_reasoning_tokens.

{"cache_read_input_tokens": 100, ...}

response_content_type

String

O tipo de conteúdo da resposta.

application/json

status_code

INT

O código de status HTTP da resposta.

200

routing_information

struct

Detalhes de roteamento para tentativas de fallback . Contém um array attempts com priority, action, destination, destination_id, status_code, error_code, latency_ms, start_time e end_time para cada modelo tentado durante a solicitação.

{"attempts": [{"priority": "1", ...}]}

Próximos passos