Pular para o conteúdo principal

Guia de gerenciamento de custos da Pesquisa de IA

Esta página descreve como gerenciar de forma eficaz seus custos de pesquisa de AI. Cobre os seguintes tópicos:

  • Conceitos básicos de índice e endpoint de Pesquisa de AI
  • Faturamento e monitoramento de uso.
  • Modos de sincronização.
  • Melhores práticas para otimização de custos.

Para encontrar endpoints com índices que não recebem tráfego de consulta, consulte Identificar Endpoints de Pesquisa de AI não utilizados.

Databricks AI Search inclui o seguinte:

  • Índices de Pesquisa de AI: os índices armazenam seus vetores para pesquisa e recuperação.
  • Endpoints da Pesquisa de AI: cada endpoint hospeda um ou mais índices para atender a consultas. Vários índices podem ser disponibilizados em um único endpoint, e um endpoint pode disponibilizar até 50 índices. Em muitos casos, é possível combinar cargas de trabalho menores em um único endpoint para reduzir os custos totais.

Como o AI Search é precificado

O Databricks oferece duas opções de endpoint:

  • Endpoints padrão. Uma unidade de pesquisa de vetor cobre até 2 milhões de vetores de dimensão 768 (ou o equivalente). Por exemplo, se houver 1 milhão de vetores com dimensão 1.536, isso também conta como uma unidade.

  • Endpoints otimizados para armazenamento. Uma unidade de pesquisa de vetor cobre até 64 milhões de vetores de 768 dimensionalidades (ou o equivalente).

Para ambas as opções, cada endpoint tem um preço base e escala automaticamente para corresponder ao tamanho total dos índices que ele está servindo. Endpoints são reduzidos automaticamente quando um índice é excluído. O tamanho mínimo para um endpoint é uma unidade de pesquisa vetorial.

Endpoints de pesquisa de IA são cobrados somente depois que um índice tiver sido criado, e 24 horas depois que o último índice é excluído do endpoint, o endpoint não incorre mais em nenhuma cobrança.

Como monitorar o uso e os custos

A Databricks fornece uma tabela de uso faturável, painéis de uso e políticas de uso para ajudar a monitorar o uso e os custos da Pesquisa de AI.

Tabela de uso faturável

Aqui está um exemplo de consulta da tabela de uso faturável:

SQL
WITH all_vector_search_usage AS (
SELECT *,
CASE WHEN usage_metadata.endpoint_name IS NULL THEN 'ingest'
WHEN usage_type = "STORAGE_SPACE" THEN 'storage'
ELSE 'serving'
END as workload_type
FROM system.billing.usage
WHERE billing_origin_product = 'VECTOR_SEARCH'
),

daily_dbus AS (
SELECT
workspace_id,
cloud,
usage_date,
workload_type,
usage_metadata.endpoint_name as vector_search_endpoint,
CASE WHEN workload_type = 'serving' THEN SUM(usage_quantity)
WHEN workload_type = 'ingest' THEN SUM(usage_quantity)
ELSE null
END as dbus,
CASE WHEN workload_type = 'storage' THEN SUM(usage_quantity)
ELSE null
END as dsus
FROM all_vector_search_usage
GROUP BY 1,2,3,4,5
ORDER BY 1,2,3,4,5 DESC
)
SELECT * FROM daily_dbus;

Para mais detalhes sobre a tabela de uso faturável, consulte Referência da tabela do sistema de uso faturável.

Consultas adicionais estão no seguinte exemplo de notebook.

Notebook de consultas de tabelas do sistema de pesquisa de AI

Abrir notebook em uma nova aba

Dashboards de uso

Para obter informações sobre dashboards de uso que você pode importar para obter percepções sobre os direcionadores de custo, incluindo o uso para AI Search, consulte Dashboards de uso.

Políticas de uso

Políticas de uso permitem aos administradores agrupar e filtrar registros de cobrança em todos os produtos serverless do Databricks e fornecem uma interface de usuário dedicada para acompanhamento de gastos. Para saber como aplicar uma política de uso a um endpoint de Pesquisa de IA, consulte políticas de uso da Pesquisa de IA. Para obter informações gerais e detalhes sobre como criar e gerenciar políticas de uso, consulte Atribuir uso com políticas de uso serverless.

Como gerenciar custos de sincronização de índice

Você pode configurar seu índice para atualizar de duas maneiras:

  • Sincronização Acionada : É possível chamar a API ou o SDK Python para acionar uma atualização de índice. Esta é a opção mais econômica.
  • Sincronização Contínua: O índice é atualizado automaticamente com as alterações da tabela Delta de origem com latência quase em tempo real. Isto tem um custo maior porque um cluster de transmissão é provisionado para lidar com a sincronização. Se as atualizações quase em tempo real com segundos de latência não forem críticas, considere usar o Triggered Sync para reduzir custos.

Práticas recomendadas para gerenciamento de custos

  • Combine cargas de trabalho em um único endpoint: Se houver previsão de baixo QPS em todos os índices, é possível combinar os índices sob um único endpoint para evitar custos de múltiplos endpoints base. Consulte o guia de desempenho de Pesquisa de AI para mais detalhes.
  • Monitorar o uso : use as tabelas de faturamento do sistema e os painéis de uso integrados para acompanhar a capacidade, o uso e os custos. Observe que usar alta QPS aumenta o custo do endpoint.
  • Escolha o modo de sincronização correto: Use a Sincronização Acionada em vez da Sincronização Contínua sempre que possível, para reduzir os custos de transmissão.
  • Identifique endpoints não utilizados : endpoints com índices que não recebem tráfego de consulta ainda incorrem em custos de veiculação. Utilize os logs de auditoria para encontrá-los. Consulte Identificar endpoints de Pesquisa de AI não utilizados.

Mais recursos