Pular para o conteúdo principal

Monitorar o custo do Unity AI Gateway

info

Beta

Este recurso está em versão Beta.

Observe e analise o custo de todo o tráfego do Unity AI Gateway por endpoint, modelo de destino, entidade solicitante e tags.

nota

A observabilidade dos custos é baseada nos registros de faturamento do Databricks. Para análises de uso em nível de solicitação, como contagem de tokens, latência, detalhes do solicitante e tags de solicitação, consulte Monitorar o uso do endpoint do Unity AI Gateway.

Requisitos

Atribuição

O Unity AI Gateway fornece atribuição de custos por meio da tabela do sistema de uso faturável (system.billing.usage).

O Unity AI Gateway enriquece os registros de faturamento MODEL_SERVING em system.billing.usage com metadados específicos endpointpara que o custo Databricks possa ser atribuído ao endpoint associado, modelos de destino, principais e tags endpoint . Para obter o esquema completo e as definições dos campos, consulte a referência da tabela do sistema de utilização de faturamento.

A tabela do sistema de uso faturável inclui a atribuição de custos para modelos hospedados no Databricks. Para análise de custos de modelos externos no painel de controle, consulte Custo do modelo externo.

Para solicitações atendidas por meio de um endpoint do Unity AI Gateway, o Databricks preenche os seguintes campos em MODEL_SERVING registros em system.billing.usage:

campo

Descrição

usage_metadata.ai_gateway_endpoint_name

O nome do endpoint do Unity AI Gateway que recebeu a solicitação.

usage_metadata.ai_gateway_endpoint_id

O ID do endpoint do Unity AI Gateway.

usage_metadata.ai_gateway_destination_model

O modelo de destino que processou a solicitação, por exemplo GPT-5.2.

usage_metadata.ai_gateway_destination_id

O ID do alvo que processou a solicitação.

identity_metadata.run_by

O usuário ou entidade de serviço do Databricks que emitiu a solicitação.

custom_tags

tags de endpoint configuradas no endpoint do Unity AI Gateway, como team ou cost_center. Consulte Configurar o endpoint do Unity AI Gateway.

Esses campos são preenchidos tanto para solicitações de inferência de tempo real quanto para solicitações de inferência de lotes roteadas pelo endpoint do Unity AI Gateway.

Observabilidade

O painel de controle de utilização integrado inclui uma página de análise de custos para monitorar e analisar a distribuição de custos ao longo do tempo. Você pode analisar os custos em diversas dimensões, incluindo:

  • Endpoint
  • Modelo alvo
  • Usuário solicitante ou entidade de serviço
  • tagsde ponto final
  • tagsde solicitação

Para abrir o painel de controle, clique em " Exibir painel de controle" na página do AI Gateway. Para obter detalhes sobre como importar e atualizar o painel de controle, consulte o painel de controle de uso integrado.

Painel de análise de custos do AI-gateway

Detalhamento da análise de custos do AI-gateway

nota

A observabilidade de custos está disponível na versão do painel 0.4 e superiores. Os administradores da conta devem atualizar o painel de controle para receber as alterações mais recentes do Padrão. Veja o painel de controle de uso integrado.

análise baseada em tags

A página de análise de custos inclui visualização e filtros baseados em tag , permitindo analisar custos usando tags endpoint e tags de requisição.

tags de endpoint são configuradas no endpoint do Unity AI Gateway e se aplicam a todas as solicitações enviadas para esse endpoint. As tags de solicitação são anexadas a solicitações individuais e permitem uma atribuição mais granular dentro do mesmo endpoint, como por projeto, recurso, ambiente ou usuário final.

Os filtros de tags aceitam uma lista separada por ponto e vírgula no formato <entry1>;<entry2>;<entry3>, onde cada entrada é especificada como:

  • <key> para corresponder a todos os valores de uma key tag . Por exemplo, team corresponde a todas as solicitações com a tag team .
  • <key>=<value> para corresponder a uma tag específica por meio key-valor. Por exemplo, team=ml-platform;env=prod corresponde às tags de requisição com team=ml-platform e env=prod.

Para obter informações sobre como configurar e consultar tags de requisição, consulte requisições de tags e endpoint para acompanhamento de uso.

Custo do modelo externo

O painel de utilização pode ser configurado para incluir estimativas de custos para modelos externos , especificando uma tabela de preços do modelo na configuração "Substituição da tabela de preços" . A tabela de preços é gerenciável pelo usuário e deve ser fornecida como entrada no painel de controle.

Substituição da tabela de preços do modelo externo do gateway de IA

A tabela de preços deve incluir os seguintes campos:

campo

Tipo

Descrição

model

String

O nome do modelo usado para atribuição de custos no painel de controle.

input_token_price

double

O preço dos tokens de entrada.

output_token_price

double

O preço dos tokens de saída.

cache_read_input_token_price

double

O preço dos tokens de entrada de leitura em cache, quando suportados.

cache_write_input_token_price

double

O preço dos tokens de entrada para gravação em cache, quando suportados.

nota

As estimativas de custos para modelos externos são apenas para fins informativos. Esses valores são calculados com base nos preços de tabela ou nos preços promocionais e podem não refletir a fatura final do seu fornecedor. A Databricks não se responsabiliza por discrepâncias na faturação de terceiros.

Analisando os custos

As consultas a seguir analisam o custo dos modelos hospedados no Databricks em system.billing.usage. O custo pode ser detalhado por endpoint, modelo de destino, entidade principal e tag endpoint .

Por endpoint

SQL
SELECT
usage_metadata.ai_gateway_endpoint_name AS endpoint_name,
SUM(usage_quantity) AS dbus
FROM system.billing.usage
WHERE billing_origin_product = 'MODEL_SERVING'
AND usage_metadata.ai_gateway_endpoint_name IS NOT NULL
AND usage_unit = 'DBU'
AND usage_date >= current_date() - INTERVAL 30 DAYS
GROUP BY endpoint_name
ORDER BY dbus DESC;

Por modelo de destino

SQL
SELECT
usage_metadata.ai_gateway_destination_model AS destination_model,
SUM(usage_quantity) AS dbus
FROM system.billing.usage
WHERE billing_origin_product = 'MODEL_SERVING'
AND usage_metadata.ai_gateway_endpoint_name IS NOT NULL
AND usage_unit = 'DBU'
AND usage_date >= current_date() - INTERVAL 30 DAYS
GROUP BY destination_model
ORDER BY dbus DESC;

Por usuário ou entidade de serviço Databricks

SQL
SELECT
identity_metadata.run_by AS run_by,
SUM(usage_quantity) AS dbus
FROM system.billing.usage
WHERE billing_origin_product = 'MODEL_SERVING'
AND usage_metadata.ai_gateway_endpoint_name IS NOT NULL
AND identity_metadata.run_by IS NOT NULL
AND usage_unit = 'DBU'
AND usage_date >= current_date() - INTERVAL 30 DAYS
GROUP BY run_by
ORDER BY dbus DESC;

Por tag endpoint

As tags de endpoint são propagadas para os registros de faturamento em custom_tags, o que possibilita alocar custos por dimensões como equipe, ambiente, projeto ou centro de custo.

SQL
SELECT
custom_tags['team'] AS team,
SUM(usage_quantity) AS dbus
FROM system.billing.usage
WHERE billing_origin_product = 'MODEL_SERVING'
AND usage_metadata.ai_gateway_endpoint_name IS NOT NULL
AND custom_tags['team'] IS NOT NULL
AND usage_unit = 'DBU'
AND usage_date >= current_date() - INTERVAL 30 DAYS
GROUP BY team
ORDER BY dbus DESC;

Para adicionar tags como team, project ou cost_center a um endpoint do Unity AI Gateway, consulte Configurar endpoint do Unity AI Gateway.

Limitações

  • A atribuição de gastos se aplica a MODEL_SERVING registros em system.billing.usage. As solicitações encaminhadas para modelos externos que são faturados diretamente pelo provedor externo não aparecem em system.billing.usage.
  • Para endpoints do Unity AI Gateway com múltiplos destinos, como divisão de tráfego ou fallback, ai_gateway_destination_model e ai_gateway_destination_id identificam o destino que finalmente atendeu à solicitação.