メインコンテンツまでスキップ

測定を有効にする:サポートインフラストラクチャ

この記事では、品質測定に必要なインフラストラクチャと、Databricksがそれを提供する方法について詳しく説明します。品質の測定は容易ではなく、多大なインフラストラクチャ投資が必要です。

詳細トレースロギング

RAGアプリケーションのロジックの中核は、チェーン内の一連のステップです。品質を評価およびデバッグするには、チェーンの各ステップとその関連する入出力とともに、チェーンの入出力を追跡する計測処理を実装する必要があります。導入した計測処理は、開発環境と本番運用環境で同じように機能する必要があります。

Databricks では、 MLflow トレース によってこの機能が提供されます。 MLflow Trace Logging を使用すると、コードを本番運用でインストルメント化し、開発時と本番運用で同じトレースを取得できます。本番運用 トレースは、推論テーブルの一部としてログに記録されます。

関係者レビューUI

多くの場合、開発者として、開発するアプリケーションのコンテンツについてドメインエキスパートではありません。アプリケーションの出力品質を評価できる人間の専門家からフィードバックを収集するには、アプリケーションの初期バージョンと対話し、詳細なフィードバックを提供できるインターフェースが必要です。さらに、ステークホルダーが品質を評価できるよう、特定のアプリケーション出力をロードする方法が必要です。

このインターフェースは、アプリケーションの出力と関連するフィードバックを構造化された方法で追跡し、完全なアプリケーションのトレースと詳細なフィードバックをデータテーブルに格納する必要があります。

Databricks では、 エージェント評価レビュー アプリが この機能を提供します。

品質、コスト、レイテンシのメトリクスフレームワーク

チェーンの各コンポーネントとエンドツーエンドのアプリケーションの品質を包括的に測定するメトリクスを定義する方法が必要です。理想的には、このフレームワークは、標準的なメトリクスのスイートをすぐに使用できる状態で提供し、カスタマイズもサポートすることで、ビジネスに固有の品質の特定の側面をテストするメトリクスを追加できるようにします。

Databricksでは、Agent Evaluationは、ホストされたLLMジャッジモデルを使用して、必要な品質、コスト、およびレイテンシーメトリクスに対応する、すぐに使える実装を提供します。

評価ハーネス

評価セット内のすべての質問に対するチェーンからの出力を迅速かつ効率的に取得し、関連するメトリクスに基づいて各出力を評価する方法が必要です。品質を向上させるために試みるすべてのエクスペリメントの後に評価を実行するため、このハーネスは可能な限り効率的である必要があります。

Databricks では、Agent Evaluation は MLflow と統合された評価ハーネスを提供しています。

評価セットの管理

評価セットは、アプリケーションの開発および本番運用のライフサイクルを通じて、繰り返し更新する生きた質問のセットです。

Databricksでは、評価セットをDelta Tableとして管理できます。MLflowで評価する場合、MLflowは、使用された評価セットのバージョンのスナップショットを自動的にログに記録します。

エクスペリメントトラッキングフレームワーク

アプリケーション開発の過程で、多くの異なるエクスペリメントを試すことになります。エクスペリメントトラッキングフレームワークにより、各エクスペリメントを記録し、他のエクスペリメントと比較してそのメトリクスを追跡することができます。

Databricks では、MLflow がエクスペリメントのトラッキング機能を提供します。

チェーンパラメーター化フレームワーク

試行する多くのエクスペリメントでは、コードで使用されるさまざまなパラメーターを反復処理しながら、チェーンのコードを一定に保つ必要があります。これを行うことができるフレームワークが必要です。

Databricksでは、MLflowモデル構成がこれらの機能を提供します。

オンラインモニタリング

デプロイ後、アプリケーションの健全性、継続的な品質、コスト、およびレイテンシーをモニタリングする方法が必要です。

Databricksでは、Model Servingがアプリケーションヘルスモニタリングを提供し、データプロファイリングがダッシュボードへの継続的な出力を提供し、品質、コスト、遅延を監視します。