測定の有効化:サポートインフラストラクチャ

この記事では、品質を測定するために必要なインフラストラクチャと、Databricks がそれを提供する方法について詳しく説明します。 品質の測定は容易ではなく、多額のインフラ投資が必要です。

詳細なトレース ログ

RAG アプリケーションのロジックの中核は、チェーン内の一連のステップです。 品質を評価およびデバッグするには、チェーンの各ステップとそれに関連する入力と出力とともに、チェーンの入力と出力を追跡するインストルメンテーションを実装する必要があります。 導入したインストルメンテーションは、開発と本番運用で同じように機能する必要があります。

Databricks では、 MLflow Tracing がこの機能を提供します。 MLflowトレース ログを使用すると、本番運用でコードをインストルメント化し、開発中と本番運用で同じトレースを取得できます。 本番運用トレースは推論テーブルの一部として記録されます。

利害関係者レビュー UI

ほとんどの場合、開発者は、開発中のアプリケーションのコンテンツに関するドメインの専門家ではありません。 アプリケーションの出力品質を評価できる人間の専門家からフィードバックを収集するには、アプリケーションの初期バージョンと対話し、詳細なフィードバックを提供できるインターフェイスが必要です。 さらに、利害関係者が品質を評価するために、特定のアプリケーション出力を読み込む方法が必要です。

このインターフェイスは、アプリケーションの出力と関連するフィードバックを構造化された方法で追跡し、完全なアプリケーション トレースと詳細なフィードバックをデータ テーブルに格納する必要があります。

Databricks では、 エージェント評価レビュー アプリがこの機能を提供します。

品質、コスト、レイテンシーのメトリクスフレームワーク

チェーンとエンドツーエンドのアプリケーションの各コンポーネントの品質を包括的に測定するメトリックを定義する方法が必要です。 理想的には、フレームワークはカスタマイズのサポートに加えて、すぐに使用できる一連の標準メトリクスを提供し、ビジネスに固有の品質の特定の側面をテストするメトリクスを追加できるようにします。

Databricksでは、エージェント評価は、必要な品質、コスト、およびレイテンシのメトリクスに対して、ホストされたLLM判定モデルを使用してすぐに使用できる実装を提供します。

評価ハーネス

評価セット内のすべての質問に対してチェーンから出力を迅速かつ効率的に取得し、関連するメトリックで各出力を評価する方法が必要です。 品質向上を図るために、実験ごとに評価を実行するため、このハーネスは可能な限り効率的である必要があります。

Databricks では、Agent Evaluation によって MLflow と統合された評価ハーネスが提供されます。

評価セットの管理

評価セットは、アプリケーションの開発と運用のライフサイクルを通じて繰り返し更新される、生きた質問のセットです。

Databricksでは、評価セットをDeltaテーブルとして管理できます。 MLflow で評価する場合、MLflow は使用された評価セットのバージョンのスナップショットを自動的に記録します。

エクスペリメント追跡フレームワーク

アプリケーション開発の過程では、さまざまな実験を試すことになります。 エクスペリメント追跡フレームワークを使用すると、各エクスペリメントを記録し、そのメトリクスを他のエクスペリメントと比較して追跡できます。

Databricksでは、 MLflowエクスペリメント追跡機能を提供します。

チェーンパラメータ化フレームワーク

試す多くの拡張機能では、コードで使用されるさまざまな 引数 を反復処理しながら、チェーンのコードを一定に保持する必要があります。 これを可能にするフレームワークが必要です。

Databricks では、 MLflow モデル構成によってこれらの機能が提供されます。

オンラインモニタリング

デプロイしたら、アプリケーションの正常性と継続的な品質、コスト、および待機時間を監視する方法が必要です。

Databricksでは、モデルサービングがアプリケーションの健全性モニタリングを提供し、レイクハウス モニタリングがダッシュボードに継続的な出力を提供し、品質、コスト、およびレイテンシを監視します。