Monitorar os custos do modelo de serviço
Este artigo fornece exemplos de como usar tabelas do sistema para monitorar o custo do endpoint Mosaic AI Model Serving em seu Databricks account.
Requisitos
- Para acessar as tabelas do sistema, o site workspace deve estar habilitado para Unity Catalog. Para obter mais informações, consulte Tabelas do sistema Access.
 
Tabela do sistema de faturamento de utilização SKU
O senhor pode acompanhar os custos do modelo de serviço em Databricks usando a tabela do sistema de uso faturável. Depois que a tabela do sistema de uso de cobrança é ativada, a tabela é preenchida automaticamente com o uso mais recente em seu site Databricks account. Os custos aparecem na tabela system.billing.usage com a coluna sku_name como uma das seguintes:
  | Descrição  | 
|---|---|
  | Este site SKU inclui todas as DBUs acumuladas quando um endpoint começa depois de zerar.  | 
  | Todos os outros custos do modelo de serviço estão agrupados neste site SKU. Onde   | 
Consulte e visualize o uso
O senhor pode consultar a tabela system.billing.usage para agregar todas as DBUs (Databricks Units) associadas ao Mosaic AI Model Serving. A seguir, um exemplo de consulta que agrega DBUs do modelo servindo por dia nos últimos 30 dias usando SQL:
SELECT SUM(usage_quantity) AS model_serving_dbus,
usage_date
FROM system.billing.usage
WHERE sku_name LIKE '%SERVERLESS_REAL_TIME_INFERENCE%'
GROUP BY(usage_date)
ORDER BY usage_date DESC
LIMIT 30
uso de cargas de trabalho de inferência de lotes
O senhor pode consultar a tabela system.billing.usage para isolar DBUs (Databricks Units) que foram usadas para cargas de trabalho de inferência de lotes.
SELECT *
FROM system.billing.usage u
WHERE u.workspace_id = <workspace_id>
  AND u.billing_origin_product = "MODEL_SERVING"
  AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE"
Para obter uma lista de todos os endpoints de modelo de serviço que têm cargas de trabalho de inferência de lotes, use o seguinte:
SELECT DISTINCT(usage_metadata.endpoint_name)
FROM system.billing.usage
WHERE u.workspace_id = <workspace_id>
  AND u.billing_origin_product = "MODEL_SERVING"
  AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";
Consulte custos de visualização para cargas de trabalho de inferência de lotes para obter exemplos adicionais.
Painel de observabilidade de custos
Para ajudá-lo a começar a monitorar seus custos de modelo de serviço, download o exemplo de painel de atribuição de custo de GitHub. Veja o painel de atribuição de custos da servindo modelo.
Depois de acessar download o arquivo JSON, importe o painel de controle para o seu workspace. Para obter instruções sobre como importar painéis, consulte Importar um arquivo de painel.
Como usar esse painel
Esse painel é alimentado por AI/BI e o senhor precisa ter acesso às tabelas do sistema. Ele fornece percepções do seu serviço endpoint custos e uso no nível workspace.
As etapas a seguir o ajudarão a começar:
- Digite a ID workspace.
 - Selecione a data de início e a data de término.
 - Filtre o painel selecionando o nome endpoint específico na lista dropdown (se o senhor estiver interessado em um endpoint específico).
 - Separadamente, insira a tag key se o senhor usar alguma tag personalizada para seu endpoint.
 
O senhor também pode usar os orçamentos para gerenciar alertas.
A servindo modelo impõe limites de default no workspace para garantir que não haja gastos excessivos. Veja servindo modelo limites e regiões.
Gráficos que você pode usar
Os gráficos a seguir estão incluídos neste painel. Eles servem como ponto de partida para que o senhor crie sua própria versão personalizada do painel de atribuição de custos da Servindo Modelo.
- 
Últimos 7 dias Ponto final superior Consumo
 - 
Total diário de uso de $ DBU
 - 
servindo modelo Custos por tipo de endpoint
- Pay-Per-tokens
 - CPU/GPU
 - Modelo de fundação
 
 - 
Consumo diário Por modelo de serviço Tipo
 - 
Os 10 endpoints de serviço mais caros
 - 
Os 10 endpoints de pagamento por tokens mais caros
 - 
LLM Fine tuning Últimos 7 dias Gastos
 - 
LLM Ajuste fino do gasto por e-mail
 
Use tags para monitorar os custos
Inicialmente, os custos agregados podem ser suficientes para observar os custos gerais do modelo de serviço. No entanto, à medida que o número de endpoints aumenta, o senhor pode querer dividir os custos com base no caso de uso, na unidade de negócios ou em outros identificadores personalizados. O servindo modelo suporta a criação de tags personalizadas que podem ser aplicadas ao seu endpoint servindo modelo.
Todas as tags personalizadas aplicadas ao endpoint servindo modelo se propagam para a tabela system.billing.usage na coluna custom_tags e podem ser usadas para agregar e visualizar os custos. Databricks recomenda adicionar tags descritivas a cada endpoint para um acompanhamento preciso dos custos.
Exemplos de consultas
Principal ponto final por custo:
SELECT
  usage_metadata.endpoint_name AS endpoint_name,
  SUM(usage_quantity) AS model_serving_dbus
FROM
  system.billing.usage
WHERE
  sku_name LIKE '%SERVERLESS_REAL_TIME_INFERENCE%'
  AND usage_metadata.endpoint_name IS NOT NULL
GROUP BY endpoint_name
ORDER BY model_serving_dbus DESC
LIMIT 30;
Custo com tags ("business_unit": "ciência de dados") ao longo do tempo:
SELECT
  SUM(usage_quantity) AS model_serving_dbus,
  usage_date
FROM
  system.billing.usage
WHERE sku_name LIKE '%SERVERLESS_REAL_TIME_INFERENCE%'
  AND custom_tags['business_unit'] = 'data science'
GROUP BY usage_date
ORDER BY usage_date DESC
LIMIT 30
Recurso adicional
Para obter exemplos de como monitorar o custo do trabalho em seu site account, consulte Monitorar custos e desempenho do trabalho com tabelas do sistema.