Monitorar o custo do Unity AI Gateway
Beta
Este recurso está em versão Beta.
Observe e analise o custo de todo o tráfego do Unity AI Gateway por endpoint, modelo de destino, entidade solicitante e tags.
A observabilidade dos custos é baseada nos registros de faturamento do Databricks. Para análises de uso em nível de solicitação, como contagem de tokens, latência, detalhes do solicitante e tags de solicitação, consulte Monitorar o uso do endpoint do Unity AI Gateway.
Requisitos
- O Unity AI Gateway foi ativado para sua account.
- Um workspace Databricks em uma região compatível com o Unity AI Gateway.
- A tabela de utilização faturável do sistema está habilitada para sua account. Consulte Ativar tabelas do sistema.
Atribuição
O Unity AI Gateway fornece atribuição de custos por meio da tabela do sistema de uso faturável (system.billing.usage).
O Unity AI Gateway enriquece os registros de faturamento MODEL_SERVING em system.billing.usage com metadados específicos endpointpara que o custo Databricks possa ser atribuído ao endpoint associado, modelos de destino, principais e tags endpoint . Para obter o esquema completo e as definições dos campos, consulte a referência da tabela do sistema de utilização de faturamento.
A tabela do sistema de uso faturável inclui a atribuição de custos para modelos hospedados no Databricks. Para análise de custos de modelos externos no painel de controle, consulte Custo do modelo externo.
Para solicitações atendidas por meio de um endpoint do Unity AI Gateway, o Databricks preenche os seguintes campos em MODEL_SERVING registros em system.billing.usage:
campo | Descrição |
|---|---|
| O nome do endpoint do Unity AI Gateway que recebeu a solicitação. |
| O ID do endpoint do Unity AI Gateway. |
| O modelo de destino que processou a solicitação, por exemplo |
| O ID do alvo que processou a solicitação. |
| O usuário ou entidade de serviço do Databricks que emitiu a solicitação. |
| tags de endpoint configuradas no endpoint do Unity AI Gateway, como |
Esses campos são preenchidos tanto para solicitações de inferência de tempo real quanto para solicitações de inferência de lotes roteadas pelo endpoint do Unity AI Gateway.
Observabilidade
O painel de controle de utilização integrado inclui uma página de análise de custos para monitorar e analisar a distribuição de custos ao longo do tempo. Você pode analisar os custos em diversas dimensões, incluindo:
- Endpoint
- Modelo alvo
- Usuário solicitante ou entidade de serviço
- tagsde ponto final
- tagsde solicitação
Para abrir o painel de controle, clique em " Exibir painel de controle" na página do AI Gateway. Para obter detalhes sobre como importar e atualizar o painel de controle, consulte o painel de controle de uso integrado.


A observabilidade de custos está disponível na versão do painel 0.4 e superiores. Os administradores da conta devem atualizar o painel de controle para receber as alterações mais recentes do Padrão. Veja o painel de controle de uso integrado.
análise baseada em tags
A página de análise de custos inclui visualização e filtros baseados em tag , permitindo analisar custos usando tags endpoint e tags de requisição.
tags de endpoint são configuradas no endpoint do Unity AI Gateway e se aplicam a todas as solicitações enviadas para esse endpoint. As tags de solicitação são anexadas a solicitações individuais e permitem uma atribuição mais granular dentro do mesmo endpoint, como por projeto, recurso, ambiente ou usuário final.
Os filtros de tags aceitam uma lista separada por ponto e vírgula no formato <entry1>;<entry2>;<entry3>, onde cada entrada é especificada como:
<key>para corresponder a todos os valores de uma key tag . Por exemplo,teamcorresponde a todas as solicitações com a tagteam.<key>=<value>para corresponder a uma tag específica por meio key-valor. Por exemplo,team=ml-platform;env=prodcorresponde às tags de requisição comteam=ml-platformeenv=prod.
Para obter informações sobre como configurar e consultar tags de requisição, consulte requisições de tags e endpoint para acompanhamento de uso.
Custo do modelo externo
O painel de utilização pode ser configurado para incluir estimativas de custos para modelos externos , especificando uma tabela de preços do modelo na configuração "Substituição da tabela de preços" . A tabela de preços é gerenciável pelo usuário e deve ser fornecida como entrada no painel de controle.

A tabela de preços deve incluir os seguintes campos:
campo | Tipo | Descrição |
|---|---|---|
| String | O nome do modelo usado para atribuição de custos no painel de controle. |
| double | O preço dos tokens de entrada. |
| double | O preço dos tokens de saída. |
| double | O preço dos tokens de entrada de leitura em cache, quando suportados. |
| double | O preço dos tokens de entrada para gravação em cache, quando suportados. |
As estimativas de custos para modelos externos são apenas para fins informativos. Esses valores são calculados com base nos preços de tabela ou nos preços promocionais e podem não refletir a fatura final do seu fornecedor. A Databricks não se responsabiliza por discrepâncias na faturação de terceiros.
Analisando os custos
As consultas a seguir analisam o custo dos modelos hospedados no Databricks em system.billing.usage. O custo pode ser detalhado por endpoint, modelo de destino, entidade principal e tag endpoint .
Por endpoint
SELECT
usage_metadata.ai_gateway_endpoint_name AS endpoint_name,
SUM(usage_quantity) AS dbus
FROM system.billing.usage
WHERE billing_origin_product = 'MODEL_SERVING'
AND usage_metadata.ai_gateway_endpoint_name IS NOT NULL
AND usage_unit = 'DBU'
AND usage_date >= current_date() - INTERVAL 30 DAYS
GROUP BY endpoint_name
ORDER BY dbus DESC;
Por modelo de destino
SELECT
usage_metadata.ai_gateway_destination_model AS destination_model,
SUM(usage_quantity) AS dbus
FROM system.billing.usage
WHERE billing_origin_product = 'MODEL_SERVING'
AND usage_metadata.ai_gateway_endpoint_name IS NOT NULL
AND usage_unit = 'DBU'
AND usage_date >= current_date() - INTERVAL 30 DAYS
GROUP BY destination_model
ORDER BY dbus DESC;
Por usuário ou entidade de serviço Databricks
SELECT
identity_metadata.run_by AS run_by,
SUM(usage_quantity) AS dbus
FROM system.billing.usage
WHERE billing_origin_product = 'MODEL_SERVING'
AND usage_metadata.ai_gateway_endpoint_name IS NOT NULL
AND identity_metadata.run_by IS NOT NULL
AND usage_unit = 'DBU'
AND usage_date >= current_date() - INTERVAL 30 DAYS
GROUP BY run_by
ORDER BY dbus DESC;
Por tag endpoint
As tags de endpoint são propagadas para os registros de faturamento em custom_tags, o que possibilita alocar custos por dimensões como equipe, ambiente, projeto ou centro de custo.
SELECT
custom_tags['team'] AS team,
SUM(usage_quantity) AS dbus
FROM system.billing.usage
WHERE billing_origin_product = 'MODEL_SERVING'
AND usage_metadata.ai_gateway_endpoint_name IS NOT NULL
AND custom_tags['team'] IS NOT NULL
AND usage_unit = 'DBU'
AND usage_date >= current_date() - INTERVAL 30 DAYS
GROUP BY team
ORDER BY dbus DESC;
Para adicionar tags como team, project ou cost_center a um endpoint do Unity AI Gateway, consulte Configurar endpoint do Unity AI Gateway.
Limitações
- A atribuição de gastos se aplica a
MODEL_SERVINGregistros emsystem.billing.usage. As solicitações encaminhadas para modelos externos que são faturados diretamente pelo provedor externo não aparecem emsystem.billing.usage. - Para endpoints do Unity AI Gateway com múltiplos destinos, como divisão de tráfego ou fallback,
ai_gateway_destination_modeleai_gateway_destination_ididentificam o destino que finalmente atendeu à solicitação.