Práticas recomendadas para o Mosaic AI Vector Search
Este artigo dá algumas dicas sobre como usar o site Mosaic AI Vector Search de forma mais eficaz.
Recomendações para otimizar a latência
-
Use o fluxo de autorização da entidade de serviço para aproveitar as vantagens das rotas otimizadas pela rede. A autorização da entidade de serviço pode melhorar o desempenho por consulta em até 100 mseg quando comparada ao acesso pessoal tokens.
-
Use a versão mais recente do Python SDK.
-
Ao testar, comece com uma concorrência de cerca de 16 a 32. alta simultaneidade não produz uma taxa de transferência mais alta.
-
Use um modelo servido com provisionamento Taxa de transferência (por exemplo, bge-large-en ou uma versão ajustada), em vez de um modelo de fundação pay-per-tokens.
-
Certifique-se de obter o índice somente uma vez, não em todas as consultas. Ligar para
client.get_index(...).similarity_search(...)
aumentou a latência. Em vez disso, use o seguinte:Python# Initialize index
index = client.get_index(...)
# Then later, for every query
index.similarity_search(...)Isso é importante ao usar o índice de pesquisa vetorial em ambientes MLFlow, onde o senhor pode criar o objeto de índice ao criar o endpoint e reutilizá-lo para cada consulta.
Trabalhando com imagens, vídeos ou dados não textuais
- Pré-compute os embeddings e use um Delta Sync Index com embeddings autogerenciáveis.
- Não armazene formatos binários, como imagens, como metadados, pois isso afeta negativamente a latência. Em vez disso, armazene o caminho do arquivo como metadados.
Comprimento da sequência de incorporação
- Verifique o comprimento da sequência do modelo de incorporação para garantir que os documentos não estejam sendo truncados. Por exemplo, o BGE suporta um contexto de 512 tokens. Para requisitos de contexto mais longos, use gte-large-en-v1.5.
Use o modo de sincronização acionada para reduzir custos
- A opção mais econômica para atualizar um índice de pesquisa vetorial é Triggered . Selecione Contínuo somente se precisar sincronizar incrementalmente o índice com as alterações na tabela de origem com uma latência de segundos. Ambos os modos de sincronização realizam atualizações incrementais — somente os dados que foram alterados desde a última sincronização são processados.
- Para obter informações adicionais sobre o gerenciamento de custos ao usar a pesquisa vetorial,Mosaic AI Vector Search consulte: Guia de gerenciamento de custos.