Pular para o conteúdo principal

Monitore o custo do Unity AI Gateway

info

Beta

Este recurso está em Beta.

Acompanhe e analise o custo de todo o tráfego do Unity AI Gateway por serviço de modelo, modelo de destino, principal solicitante e tags.

nota

A observabilidade de custos baseia-se nos registros de faturamento do Databricks. Para analítica de uso em nível de solicitação, como contagens de tokens, latência, detalhes do solicitante e tags de solicitação, consulte Uso de modelos para serviços do Unity AI Gateway.

Requisitos

Atribuição

O Unity AI Gateway fornece atribuição de custos por meio da tabela do sistema de uso faturável (system.billing.usage).

O Unity AI Gateway enriquece os registros de faturamento MODEL_SERVING em system.billing.usage com metadados específicos do serviço, para que você possa atribuir o custo do Databricks aos serviços associados, modelos de destino, entidades de segurança e tags de serviço. Para o esquema completo e definições de campo, consulte a referência da tabela do sistema de uso faturável.

A tabela do sistema de uso faturável inclui atribuição de custo para modelos hospedados pelo Databricks. Para análise de custo de modelo externo no painel, consulte Custo de modelo externo.

Para solicitações atendidas por meio de um serviço de modelo Unity AI Gateway, o Databricks preenche os seguintes campos nos registros MODEL_SERVING em system.billing.usage:

campo

Descrição

usage_metadata.ai_gateway_endpoint_name

O nome do serviço de modelo do Unity AI Gateway que recebeu a solicitação. Este é o nome totalmente qualificado do Unity Catalog, no formato <catalog>.<schema>.<modelservice>.

usage_metadata.ai_gateway_endpoint_id

O ID do serviço de modelo Unity AI Gateway.

usage_metadata.ai_gateway_destination_model

O modelo de destino que processou a solicitação, por exemplo GPT-5.2.

usage_metadata.ai_gateway_destination_id

O ID do destino que processou a solicitação.

identity_metadata.run_by

O usuário ou entidade de serviço do Databricks que emitiu a solicitação.

custom_tags

Tags de serviço configuradas no serviço de modelo Unity AI Gateway, como team ou cost_center. Consulte Configurar endpoints do Unity AI Gateway.

O Unity AI Gateway preenche esses campos tanto para solicitações de inferência em tempo real quanto em lote encaminhadas através dele.

Observabilidade

O painel de uso integrada inclui uma página de **Análise de Custos** para monitoramento do custo e analisar detalhamentos de custo ao longo do tempo. É possível analisar o custo em várias dimensões, incluindo:

  • Serviço de modelo
  • Modelo de destino
  • Usuário solicitante ou entidade de serviço do Databricks
  • Tags de serviço
  • Tags da solicitação

Para abrir o painel, clique em Ver Painel na página do AI Gateway. Para obter detalhes sobre como importar e atualizar o painel, consulte Painel de uso integrado.

Painel de análise de custo do AI Gateway

Detalhamento da análise de custos do Gateway de IA

nota

A observabilidade de custos está disponível na versão 0.4 do painel e acima. Os administradores de account devem atualizar o painel para receber as alterações mais recentes do padrão. Consulte Painel de uso integrado.

Análise baseada em tags

A página Análise de custos inclui views e filtros com base em tags para que você possa analisar o custo usando tags de serviço e tags de solicitação.

Tags de serviço são configuradas no serviço de modelo Unity Gateway de AI e se aplicam a todas as solicitações enviadas a esse serviço de modelo. Tags de solicitação são anexadas a solicitações individuais e permitem uma atribuição mais granular dentro do mesmo serviço de modelo, como por projeto, recurso, ambiente ou usuário final.

Filtros de tag aceitam uma lista separada por ponto e vírgula no formato <entry1>;<entry2>;<entry3>, em que cada entrada é especificada como:

  • <key> para corresponder a todos os valores de uma key de tag. Por exemplo, team corresponde a todas as solicitações com a tag team.
  • <key>=<value> para corresponder a um par key-value de tag específico. Por exemplo, team=ml-platform;env=prod corresponde a solicitações marcadas com tag team=ml-platform e env=prod.

Para obter informações sobre como configurar e consultar tags de solicitação, consulte Tag de solicitações e serviço de modelo para acompanhamento de uso.

Custo do modelo externo

O dashboard de uso pode ser configurado para incluir estimativas de custo para modelos externos especificando uma tabela de preços de modelo na configuração Substituição da Tabela de Preços . A tabela de preços é gerenciada pelo usuário e deve ser fornecida como entrada para o dashboard.

Substituição da tabela de preços do modelo externo do gateway de AI

A tabela de preços deve incluir os seguintes campos:

campo

Tipo

Descrição

model

String

O nome do modelo usado para atribuição de custos no painel de controle.

input_token_price

double

O preço para tokens de entrada.

output_token_price

double

O preço para tokens de saída.

cache_read_input_token_price

double

O preço para tokens de entrada lidos do cache, quando houver suporte.

cache_write_input_token_price

double

O preço para tokens de entrada de gravação em cache, quando compatível.

nota

Estimativas de custo para modelos externos são apenas para fins informativos. Esses valores são calculados com base nos preços de tabela ou de substituição e podem não refletir a fatura final do provedor. A Databricks não se responsabiliza por divergências na cobrança de terceiros.

Análise de custo

prompt

Genie Code (modo Agente) pode fazer isso por você. Experimente este exemplo de prompt:

Query system.billing.usage to show AI Gateway DBU cost for the past 30 days, broken down by usage_metadata.ai_gateway.endpoint_name, destination model, and requesting user. Filter to MODEL_SERVING records. Show top 10 in each.

As consultas a seguir analisam o custo para modelos hospedados no Databricks em system.billing.usage. O custo pode ser detalhado por serviço de modelo, modelo de destino, principal e tag de serviço.

Por serviço de modelo

SQL
SELECT
usage_metadata.ai_gateway_endpoint_name AS endpoint_name,
SUM(usage_quantity) AS dbus
FROM system.billing.usage
WHERE billing_origin_product = 'MODEL_SERVING'
AND usage_metadata.ai_gateway_endpoint_name IS NOT NULL
AND usage_unit = 'DBU'
AND usage_date >= current_date() - INTERVAL 30 DAYS
GROUP BY endpoint_name
ORDER BY dbus DESC;

Por modelo de destino

SQL
SELECT
usage_metadata.ai_gateway_destination_model AS destination_model,
SUM(usage_quantity) AS dbus
FROM system.billing.usage
WHERE billing_origin_product = 'MODEL_SERVING'
AND usage_metadata.ai_gateway_endpoint_name IS NOT NULL
AND usage_unit = 'DBU'
AND usage_date >= current_date() - INTERVAL 30 DAYS
GROUP BY destination_model
ORDER BY dbus DESC;

Por usuário ou entidade de serviço do Databricks

SQL
SELECT
identity_metadata.run_by AS run_by,
SUM(usage_quantity) AS dbus
FROM system.billing.usage
WHERE billing_origin_product = 'MODEL_SERVING'
AND usage_metadata.ai_gateway_endpoint_name IS NOT NULL
AND identity_metadata.run_by IS NOT NULL
AND usage_unit = 'DBU'
AND usage_date >= current_date() - INTERVAL 30 DAYS
GROUP BY run_by
ORDER BY dbus DESC;

Por tag de serviço

Tags de serviço se propagam para os registros de cobrança em custom_tags, para que os custos possam ser alocados por dimensões como equipe, ambiente, projeto ou centro de custo.

SQL
SELECT
custom_tags['team'] AS team,
SUM(usage_quantity) AS dbus
FROM system.billing.usage
WHERE billing_origin_product = 'MODEL_SERVING'
AND usage_metadata.ai_gateway_endpoint_name IS NOT NULL
AND custom_tags['team'] IS NOT NULL
AND usage_unit = 'DBU'
AND usage_date >= current_date() - INTERVAL 30 DAYS
GROUP BY team
ORDER BY dbus DESC;

Para adicionar tags como team, project ou cost_center a um serviço de modelo, consulte Configurar endpoint do Unity AI Gateway.

Limitações

  • A atribuição de gastos aplica-se a MODEL_SERVING registros em system.billing.usage. As solicitações roteadas para modelos externos que são cobrados diretamente pelo provedor externo não aparecem em system.billing.usage.
  • Para serviço de modelo com vários destinos, como divisão de tráfego ou fallback, ai_gateway_destination_model e ai_gateway_destination_id identificam o destino que, em última análise, atendeu à solicitação.