メインコンテンツまでスキップ

RAG データパイプラインの説明と処理手順

RAGアプリケーション用の非構造化データを準備する方法を理解します。非構造化データには、テキストや画像を含む PDF ファイルや、オーディオやビデオなどのマルチメディア コンテンツなど、特定の構造や構成を持たないものが含まれます。

RAG データパイプラインコンポーネントの図。

非構造化データを取得するための準備

非構造化データパイプラインは、セマンティック検索を使用して取得するデータを準備します。 セマンティック検索は、ユーザークエリの背後にある意味と意図を解釈して、より関連性の高い結果を提供します。セマンティック検索は、RAGアプリケーションの取得コンポーネントを実装するための1つのアプローチにすぎません。

類似性の計算は、リソースを大量に消費する可能性があります。Mosaic AI Vector Searchなどのベクターインデックスは、埋め込みを効率的に整理してナビゲートすることでこのプロセスを最適化し、多くの場合、すべての埋め込みを個別に比較する必要のない高度な近似方法を使用します。

RAGアプリケーションデータパイプラインの構築

データパイプラインの各ステップには、RAGアプリケーションの品質に影響を与える決定が含まれます。詳細情報と実行可能なノートブックの例については、「 RAG の非構造化データパイプラインを構築する」を参照してください。

以下は、非構造化データを使用するRAGアプリケーションのデータパイプラインの一般的な手順です。

  1. コーパスの構成とインジェスト : 特定のユースケースに基づいて、適切なデータソースとコンテンツを選択します。

  2. データの前処理 : 生データを、埋め込みと取得に適したクリーンで一貫性のある形式に変換します。

    1. 解析 : 適切な解析手法を使用して、生データから関連情報を抽出します。
    2. エンリッチメント : 追加のメタデータを含むエンリッチデータ ノイズの除去。
  3. チャンク化 : 解析されたデータを、効率的に取得できるように、より小さく管理しやすいチャンクに分割します。

  4. エンベディング :チャンク化されたテキストデータを、その意味的意味を捉える数値ベクトル表現に変換します。

  5. インデックス作成と保存 :効率的なベクターインデックスを作成して、検索パフォーマンスを最適化します。