測定を可能にする:インフラストラクチャのサポート

この記事では、品質の測定に必要なインフラストラクチャと、Databricks がそれをどのように提供するかについて詳しく説明します。品質の測定は容易ではなく、多額のインフラ投資が必要です。

詳細なトレースロギング

RAGアプリケーションのロジックの中核となるのは、チェーン内の一連のステップです。品質を評価およびデバッグするには、チェーンの入力と出力、チェーンの各ステップ、およびそれに関連する入力と出力を追跡する計測器を実装する必要があります。導入するインスツルメンテーションは、開発と本番運用で同じように機能するはずです。

Databricks では、 MLflow トレースによってこの機能が提供されます。 MLflow Trace Logging を使用すると、コードを本番運用でインストルメント化し、開発時と本番運用で同じトレースを取得できます。本番運用トレースは、推論テーブルの一部としてログに記録されます。

利害関係者レビュー UI

ほとんどの場合、開発者であるあなたは、開発しているアプリケーションのコンテンツに関するドメインの専門家ではありません。アプリケーションの出力品質を評価できる人間の専門家からフィードバックを収集するには、専門家がアプリケーションの初期バージョンと対話し、詳細なフィードバックを提供できるインターフェイスが必要です。さらに、利害関係者が品質を評価するために、特定のアプリケーション出力をロードする方法が必要です。

このインターフェイスは、アプリケーションの出力と関連するフィードバックを構造化された方法で追跡し、完全なアプリケーショントレースと詳細なフィードバックをデータテーブルに格納する必要があります。

Databricks では、エージェント評価レビューアプリがこの機能を提供します。

品質、コスト、レイテンシのメトリクスフレームワーク

チェーンの各コンポーネントとエンドツーエンドのアプリケーションの品質を包括的に測定するメトリクスを定義する方法が必要です。理想的には、フレームワークはカスタマイズをサポートするだけでなく、すぐに使用できる一連の標準メトリクスを提供するため、ビジネスに固有の品質の特定の側面をテストするメトリクスを追加できます。

Databricksでは、Agent Evaluation は、ホスト型モデルLLMジャッジモデルを使用して、必要な品質、コスト、およびレイテンシメトリクスに対して、すぐに使用できる実装を提供します。

評価用ハーネス

評価セット内のすべての質問について、チェーンから出力を迅速かつ効率的に取得し、関連するメトリクスで各出力を評価する方法が必要です。このハーネスは、品質を向上させようとするエクスペリメントごとに評価を実行するため、可能な限り効率的でなければなりません。

Databricks では、エージェント評価は MLflow と統合された評価ハーネスを提供します。

評価セット管理

評価セットは、アプリケーションの開発と本番運用のライフサイクルの過程で繰り返し更新する、生き生きとした一連の質問です。

Databricksでは、評価セットをDeltaテーブルとして管理できます。MLflow で評価する場合、MLflow は使用された評価セットのバージョンのスナップショットを自動的にログに記録します。

エクスペリメント追跡フレームワーク

アプリケーション開発の過程で、さまざまなエクスペリメントを試します。エクスペリメント追跡フレームワークを使用すると、各エクスペリメントをログに記録し、そのメトリクスを他のエクスペリメントと比較して追跡できます。

Databricksでは、 MLflow がエクスペリメント追跡機能を提供します。

チェーンパラメーター化フレームワーク

多くのエクスペリメントでは、コードで使用されるさまざまなパラメーターを反復処理しながら、チェーンのコードを一定に保つ必要があります。これを可能にするフレームワークが必要です。

Databricks では、 MLflow モデル構成によってこれらの機能が提供されます。

オンラインモニタリング

デプロイが完了したら、アプリケーションの正常性と継続的な品質、コスト、およびレイテンシを監視する方法が必要です。

Databricksでは、モデルサービングはアプリケーションヘルスモニタリングを提供し、レイクハウスモニタリングはダッシュボードに継続的な出力を提供し、品質、コスト、およびレイテンシを監視します。

詳細なトレースロギング​

利害関係者レビュー UI​

品質、コスト、レイテンシのメトリクスフレームワーク​

評価用ハーネス​

評価セット管理​

エクスペリメント追跡フレームワーク​

チェーン パラメーター化フレームワーク​

オンラインモニタリング​