測定を可能にする:インフラストラクチャのサポート

この記事では、品質の測定に必要なインフラストラクチャと、Databricks がそれをどのように提供するかについて詳しく説明します。 品質の測定は容易ではなく、多額のインフラ投資が必要です。

詳細なトレースロギング

RAGアプリケーションのロジックの中核となるのは、チェーン内の一連のステップです。 品質を評価およびデバッグするには、チェーンの入力と出力、チェーンの各ステップ、およびそれに関連する入力と出力を追跡する計測器を実装する必要があります。 導入するインスツルメンテーションは、開発と本番運用で同じように機能するはずです。

Databricks では、 MLflow トレースによって この機能が提供されます。 MLflow Trace Logging を使用すると、コードを本番運用でインストルメント化し、開発時と本番運用で同じトレースを取得できます。本番運用 トレースは、推論テーブルの一部としてログに記録されます。

利害関係者レビュー UI

ほとんどの場合、開発者であるあなたは、開発しているアプリケーションのコンテンツに関するドメインの専門家ではありません。 アプリケーションの出力品質を評価できる人間の専門家からフィードバックを収集するには、専門家がアプリケーションの初期バージョンと対話し、詳細なフィードバックを提供できるインターフェイスが必要です。 さらに、利害関係者が品質を評価するために、特定のアプリケーション出力をロードする方法が必要です。

このインターフェイスは、アプリケーションの出力と関連するフィードバックを構造化された方法で追跡し、完全なアプリケーション トレースと詳細なフィードバックをデータ テーブルに格納する必要があります。

Databricks では、 エージェント評価レビュー アプリが この機能を提供します。

品質、コスト、レイテンシのメトリクスフレームワーク

チェーンの各コンポーネントとエンドツーエンドのアプリケーションの品質を包括的に測定するメトリクスを定義する方法が必要です。 理想的には、フレームワークはカスタマイズをサポートするだけでなく、すぐに使用できる一連の標準メトリクスを提供するため、ビジネスに固有の品質の特定の側面をテストするメトリクスを追加できます。

Databricksでは、Agent Evaluation は、必要な品質、コスト、およびレイテンシ メトリクスのために、ホスト型モデルLLMジャッジ モデルを使用して、すぐに使用できる実装を提供します。

評価用ハーネス

評価セット内のすべての質問について、チェーンから出力を迅速かつ効率的に取得し、関連するメトリクスで各出力を評価する方法が必要です。 このハーネスは、品質を向上させようとするエクスペリメントごとに評価を実行するため、可能な限り効率的でなければなりません。

Databricks では、エージェント評価は MLflow と統合された 評価ハーネス を提供します。

評価セット管理

評価セットは、アプリケーションの開発と本番運用のライフサイクルの過程で繰り返し更新する、生き生きとした一連の質問です。

Databricksでは、評価セットをDeltaテーブルとして管理できます。MLflow で評価する場合、MLflow は使用された評価セットのバージョンのスナップショットを自動的にログに記録します。

エクスペリメント追跡フレームワーク

アプリケーション開発の過程で、さまざまなエクスペリメントを試します。 エクスペリメント追跡フレームワークを使用すると、各エクスペリメントをログに記録し、そのメトリクスを他のエクスペリメントと比較して追跡できます。

Databricksでは、 MLflow がエクスペリメント追跡機能を提供します。

チェーン パラメーター化フレームワーク

多くのエクスペリメントでは、コードで使用されるさまざまなパラメーターを反復処理しながら、チェーンのコードを一定に保つ必要があります。 これを可能にするフレームワークが必要です。

Databricks では、 MLflow モデル構成 によってこれらの機能が提供されます。

オンラインモニタリング

デプロイが完了したら、アプリケーションの正常性と継続的な品質、コスト、およびレイテンシを監視する方法が必要です。

Databricksでは、モデルサービングはアプリケーションヘルスモニタリングを提供し、レイクハウスモニタリングはダッシュボードに継続的な出力を提供し、品質、コスト、およびレイテンシを監視します。