メインコンテンツまでスキップ

トレースの概念

ヒント

このガイドの説明とよく連携するのは、 トレーシング・データ・モデル ・ガイドで、 MLflow Tracing がどのように ここで説明する概念。

トレーシングとは?

機械学習(ML)のコンテキストでのトレースとは、MLモデルの実行中にデータフローと処理ステップを詳細に追跡および記録することを指します。データ入力から予測出力まで、モデルの動作の各段階に透明性と知見を提供します。 この詳細な追跡は、デバッグに不可欠です。 ML モデルのパフォーマンスを最適化し、理解する。

MLflow Tracing

スパンの概念

トレースのコンテキストでは、スパンはシステム内の 1 つの操作を表します。開始時刻、終了時刻、操作に関するその他のコンテキスト情報などのメタデータをキャプチャします。メタデータとともに、 作業単位に提供される入力 (生成AI モデルの呼び出し、ベクトル・ストアからの取得照会、関数呼び出しなど) と、操作からの出力が記録されます。

次の図は、生成AI モデルの呼び出しと、スパン内の関連情報の収集を示しています。スパンには、開始時刻、終了時刻、要求引数などのメタデータと、呼び出し呼び出しの入力と出力が含まれます。

スパン構造

トレースの概念

生成AI トレースのコンテキストでのトレースは、プロセッサで非同期に呼び出され、記録される Directed Acyclic Graph (DAG) のような Span イベントのコレクションです。各スパンは、 システムには、開始時刻、終了時刻、その他のコンテキスト情報などのメタデータが含まれています。これらのスパンは互いにリンクされてトレースを形成し、エンドツーエンドのプロセスを包括的に把握できます。

  • DAGのような構造 :DAG構造により、操作のシーケンスにサイクルがないことが保証され、実行の流れを理解しやすくなります。
  • スパン情報 : 各スパンは、関数呼び出し、データベース問合せ、APIリクエストなどの個別の作業単位をキャプチャします。スパンには、操作に関するコンテキストを提供するメタデータが含まれます。
  • 階層的な関連付け : スパンはアプリケーションの構造を反映しているため、さまざまなコンポーネントがどのように相互作用し、相互に依存しているかを確認できます。

これらのスパンを収集して分析することで、実行パスを追跡し、ボトルネックを特定し、システムのさまざまなコンポーネント間の依存関係と相互作用を理解できます。このレベルの 可視性は、問題の診断、パフォーマンスの最適化、生成AIアプリケーションの堅牢性の確保に不可欠です。

トレース全体がRAGアプリケーションでキャプチャできる内容については、次の図を参照してください。

トレースの概要

このアプリケーションに関連するサブシステムは、システムの品質と関連性にとって重要です。最終ステージのLLMと対話するときにデータがたどるパスが見えない 品質が達成できるアプリケーションは、高度な単調さ、面倒、高価な各ピースの手動検証を単独で行うことによってのみ達成できます。

生成AIのChatCompletionsのユースケース

チャット入力候補などの生成AIアプリケーションでは、モデルや 生成AI を利用したアプリケーションの開発者にとって、トレースがはるかに重要になります。 これらのユースケースには、人間のようなテキストの生成が含まれます 入力プロンプトに基づきます。エージェントや情報取得が関与して生成AIモデルを強化する生成AIアプリケーションほど複雑ではありませんが、チャットインターフェースはトレースの恩恵を受けることができます。インタラクションごとのインターフェースでのトレースの有効化 チャットセッションを介した生成AIモデルを使用すると、コンテキスト履歴、プロンプト、入力、および構成パラメーター全体を出力とともに評価できるため、リクエストペイロードの完全なコンテキストに対応できます 生成AIモデルに提出されました。

例として、次の図は、デプロイ サーバーでホストされているモデルを外部 生成AI サービスに接続するために使用される ChatCompletions インターフェイスの性質を示しています。

生成AIChatCompletions アーキテクチャ

推論プロセスを取り巻く追加のメタデータは、請求、パフォーマンス評価、関連性、幻覚の評価、一般的なデバッグなど、さまざまな理由で役立ちます。主要なメタデータには、次のものが含まれます。

  • トークン カウント : 処理されたトークンの数で、請求に影響します。
  • モデル名 : 推論に使用される特定のモデル。
  • プロバイダーの種類 : モデルを提供するサービスまたはプラットフォーム。
  • クエリ パラメーター : 生成プロセスに影響を与える temperature や top-k などの設定。
  • クエリ入力 : リクエスト入力 (ユーザーの質問)。
  • クエリ応答 : 入力クエリに対するシステム生成の応答で、クエリ パラメーターを使用して生成を調整します。

このメタデータは、さまざまな設定が生成されたレスポンスの品質とパフォーマンスにどのように影響するかを理解するのに役立ち、ファインチューニングと最適化に役立ちます。

Advanced Retrieval-Augmented Generation(RAG)アプリケーション

Retrieval-Augmented Generation(RAG)のようなより複雑なアプリケーションでは、効果的なデバッグと最適化のためにトレースが不可欠です。RAGには、ドキュメントの取得や生成AIモデルとのインタラクションなど、複数の段階が含まれます。インプットとアウトプットだけが見えると、課題のソースや改善の機会を特定するのが難しくなります。

たとえば、生成AI システムが満足のいく応答を生成しない場合、問題は次の点にある可能性があります。

  • ベクトル ストアの最適化 : ドキュメント取得プロセスの効率と精度。
  • 埋め込みモデル : 関連ドキュメントのエンコードと検索に使用されるモデルの品質。
  • 参考資料 : クエリ対象のドキュメントの内容と品質。

トレースにより、RAGパイプライン内の各ステップを調査し、品質を判定することができます。 トレースは、すべてのステージを可視化することで、調整が必要な場所を特定するのに役立ちます。 検索プロセス、埋め込みモデル、または参照資料の内容。

たとえば、次の図は、単純なRAGアプリケーションを形成する複雑な相互作用を示しています。そこでは、生成AIモデルが繰り返し呼び出され、最終的な出力生成応答をガイドする追加の取得データが使用されます。

RAGアーキテクチャ

このような複雑なシステムでトレースを有効にしないと、問題やボトルネックの根本原因を特定するのは困難です。次の手順は、事実上「ブラックボックス」になります。

  1. 入力クエリの埋め込み
  2. エンコードされたクエリ ベクトルの戻り値
  3. ベクトル検索入力
  4. ベクターデータベースから取得したドキュメントチャンク
  5. 生成AI モデルへの最終的な入力

このようなシステムでの応答の正確性の問題を診断するには、これらの 5 つの重要な手順を、各要求に関連付けられた入力、出力、およびメタデータをキャプチャするように構成されたインストルメンテーションが必要です このようなアプリケーションをデバッグ、改善、または改良するための困難なシナリオを作成します。応答性やコストのパフォーマンス チューニングを検討する場合、これらの各レイテンシを可視化することはできません ステップには、これらの各サービスの設定と手動のインストルメンテーションを必要とする、まったく異なる課題があります。

MLflow でのトレースの概要

MLflowでトレースを使用する方法については、MLflow Tracing ガイドを参照してください。

生成AIを超えて:従来の機械学習のトレーシング

注記

このドキュメントでは、トレースが最も価値を提供する 生成AI アプリケーションに焦点を当てていますが、 MLflow Tracing は従来の ML ワークフローにも適用できます。 次のセクションでは、完全性のためにこのユースケースについて簡単に説明します。

従来のMLでは、推論プロセスは比較的単純です。リクエストが行われると、入力データがモデルに供給され、モデルがデータを処理して予測を生成します。

次の図は、入力データ、モデルサービング インターフェイス、およびモデル自体の関係を示しています。

従来の ML 推論アーキテクチャ

このプロセスは完全に可視化されており、入力と出力の両方が明確に定義され、エンドユーザーが理解できることを意味します。たとえば、スパム検出モデルでは、入力は Eメールです。 出力は、Eメールがスパムであるかどうかを示すバイナリラベルです。 推論プロセス全体が透明であるため、どのデータが送信され、どの予測が返されたかを簡単に判断できます。 完全なトレースを、定性的モデルのパフォーマンスのコンテキスト内ではほとんど無関係なプロセスにレンダリングします。

ただし、トレースをデプロイ構成の一部として含めると、サーバーに対して行われたリクエストの処理の性質、モデルの予測のレイテンシ、 また、システムへのアクセス API ログを記録するため。 この古典的な形式のトレース・ロギングでは、レイテンシとパフォーマンスの観点から推論要求に関連付けられたメタデータがモニターおよびロギングされます。これらのログは、 通常、モデル開発者や data scientists がモデルの動作を理解するために使用しません。

次のステップ

これらの推奨アクションとチュートリアルで旅を続けてください。

リファレンスガイド

関連する概念に関する詳細なドキュメントをご覧ください。