Mosaic AI Vector Searchのベストプラクティス
この記事では、Mosaic AI Vector Search を最も効果的に使用するためのヒントをいくつか紹介します。
レイテンシーを最適化するための推奨事項
ネットワークに最適化されたルートを活用するには、サービス プリンシパル承認フローを使用します。
Python SDK の最新バージョンを使用してください。
テストするときは、約 16 から 32 のコンカレンシーから開始します。 同時実行性が高くても、高いパフォーマンスは得られません。
トークン単位の従量課金基盤モデルの代わりに、トークン 最大限のパフォーマンスで提供されるモデル (たとえば、bge-large-en または微調整されたバージョン) を使用します。
GPU を使用する場合
CPU は、基本的なテストと小さなデータセット (最大 100 行) にのみ使用します。
GPU コンピュート タイプの場合、 Databricks GPU-small または GPU-medium の使用を推奨しています。
GPU コンピュート スケールアウトの場合、同時実行性を高めると取り込み時間が改善される可能性がありますが、合計データセット サイズやインデックス メタデータなどの要因によって異なります。
画像、ビデオ、またはテキスト以外のデータの操作
埋め込みを事前に行い、自己管理型の埋め込みで Delta Sync Index を使用します。
画像などのバイナリ形式は、待機時間に悪影響を与えるため、メタデータとして保存しないでください。 代わりに、ファイルのパスをメタデータとして格納します。
埋め込みシーケンスの長さ
埋め込みモデルのシーケンスの長さをチェックして、ドキュメントが切り捨てられていないことを確認します。 たとえば、BGE は 512 個のトークンのコンテキストをサポートします。 より長いコンテキスト要件の場合は、 gte-large-en-v1.5 を使用します。