Mosaic AI Vector Search: Guia de gerenciamento de custos
Visualização
Esse recurso está em Public Preview.
Este artigo descreve como gerenciar efetivamente seus custos ao usar o site Mosaic AI Vector Search. Ele aborda os seguintes tópicos:
- Índice de pesquisa vetorial e noções básicas de endpoint.
- Faturamento e monitoramento de uso.
- Modos de sincronização.
- Práticas recomendadas para otimizar custos.
Mosaic AI Vector Search Fundamentos
O Mosaic AI Vector Search é composto por:
- Índices de pesquisa vetorial: os índices armazenam seus vetores para pesquisa e recuperação.
- Ponto de extremidade de pesquisa de vetores: Cada endpoint hospeda um ou mais índices para atender às consultas. O senhor pode ter vários índices atendidos em um único endpoint, e um endpoint pode atender a até 50 índices. Em muitos casos, é possível combinar cargas de trabalho menores em um único endpoint para reduzir os custos totais.
Qual é o preço da pesquisa vetorial
Uma unidade de busca vetorial cobre até 2 milhões de vetores de dimensão 768 (ou equivalente). Por exemplo, se você tiver 1 milhão de vetores de dimensão 1536, isso também conta como uma unidade. Cada endpoint tem um preço base e aumenta automaticamente para corresponder ao tamanho total dos índices que está servindo. No entanto, os pontos de extremidade não são reduzidos automaticamente. Mesmo que você exclua vetores ou reduza o tamanho de seus índices, você continua pagando pela maior capacidade até realizar uma ação manual.
não são reduzidos automaticamente. Se a contagem de vetores cair significativamente (por exemplo, de 4 milhões para 1,5 milhão de vetores), o senhor continuará pagando pela capacidade mais alta (duas unidades de pesquisa de vetores neste exemplo) até excluir o endpoint e criar um novo.
Como monitorar o uso e os custos
A Databricks fornece uma tabela de uso faturável, painéis de uso e políticas de orçamento para ajudar o senhor a monitorar o uso e os custos do Vector Search.
Tabela de uso faturável
Aqui está um exemplo de consulta da tabela de uso faturável:
WITH all_vector_search_usage AS (
SELECT *,
CASE WHEN usage_metadata.endpoint_name IS NULL THEN 'ingest'
WHEN usage_type = "STORAGE_SPACE" THEN 'storage'
ELSE 'serving'
END as workload_type
FROM system.billing.usage
WHERE billing_origin_product = 'VECTOR_SEARCH'
),
daily_dbus AS (
SELECT
workspace_id,
cloud,
usage_date,
workload_type,
usage_metadata.endpoint_name as vector_search_endpoint,
CASE WHEN workload_type = 'serving' THEN SUM(usage_quantity)
WHEN workload_type = 'ingest' THEN SUM(usage_quantity)
ELSE null
END as dbus,
CASE WHEN workload_type = 'storage' THEN SUM(usage_quantity)
ELSE null
END as dsus
FROM all_vector_search_usage
GROUP BY 1,2,3,4,5
ORDER BY 1,2,3,4,5 DESC
)
SELECT * FROM daily_dbus;
Para obter mais detalhes sobre a tabela de uso faturável, consulte Referência da tabela de uso faturável do sistema.
Consultas adicionais estão no seguinte exemplo de notebook.
Sistema de pesquisa vetorial tabelas consultas Notebook
Painéis de uso
Para obter informações sobre painéis de uso que o senhor pode importar para obter percepções sobre os geradores de custo, incluindo o uso para pesquisa de vetores, consulte Painéis de uso.
Políticas orçamentárias
As políticas de orçamento permitem que os administradores agrupem e filtrem os registros de faturamento em todos os Databricks serverless produtos e fornecem uma interface de usuário dedicada para acompanhar os gastos. Para saber como aplicar uma política de orçamento a um endpoint de pesquisa vetorial, consulte Mosaic AI Vector Search: Políticas de orçamento. Para obter informações gerais e detalhes sobre como criar e gerenciar políticas orçamentárias, consulte Uso de atributos com políticas orçamentárias em serverless.
Como gerenciar os custos de sincronização de índices
Você pode configurar seu índice para ser atualizado de duas maneiras:
- Sincronização acionada : O senhor chama a API ou o Python SDK para acionar uma atualização de índice. Essa é a opção mais econômica.
- Sincronização contínua : O índice é atualizado automaticamente com as alterações da tabela Delta de origem com latência quase em tempo real. Isso custa mais porque um clustering de transmissão é provisionado para lidar com a sincronização. Se as atualizações quase em tempo real com segundos de latência não forem essenciais, considere o uso do Triggered Sync para reduzir os custos.
Melhores práticas para gerenciamento de custos
- Combine cargas de trabalho em um único endpoint : se o senhor prevê menos de ~150 QPS em todos os índices, pode combinar seus índices em um único endpoint para evitar vários custos de endpoint de base.
- Monitore o uso : Use as tabelas de faturamento do sistema e os painéis de uso integrados para monitorar a capacidade, o uso e os custos.
- Reduzir a escala manualmente : Conforme explicado acima, o senhor deve excluir o endpoint e recriá-lo se a contagem de vetores cair abaixo de um limite de capacidade anterior do qual não precisa mais.
- Escolha o modo de sincronização correto : Use Triggered Sync em vez de Continuous Sync sempre que possível, para reduzir os custos de transmissão.
Recurso adicional
- Mosaic AI Vector Search preços
- Painéis e instruções de uso
- Entre em contato com a equipe do Databricks account se desejar obter orientação adicional sobre como prever seu uso ou aproveitar as ferramentas de estimativa de custo específicas para suas cargas de trabalho.