生成AI対応 MLflow 3
MLflow 3 for GenAI は、開発および運用ライフサイクル全体にわたって GenAI アプリとエージェントの追跡、評価、および観測可能性を統合するオープン プラットフォームです。 これには、リアルタイムのトレースのログ記録、組み込みおよびカスタム スコアラー、人間によるフィードバックの組み込み、バージョン追跡が含まれており、開発中にアプリの品質を効率的に評価および改善し、本番運用で品質を継続的に追跡および改善するのに役立ちます。
DatabricksのマネージドMLflow 、エンタープライズ対応のガバナンス、フルマネージド ホスティング、本番運用レベルのスケーリング、 DatabricksレイクハウスおよびUnity Catalogのデータとの統合など、本番運用 GenAI アプリケーション用に設計された機能でオープンソースMLflow拡張します。
MLflow 2 でのエージェント評価の詳細については、 Mosaic AIエージェント評価 ( MLflow 2)」および移行ガイドを参照してください。 MLflow 3 では、エージェント評価 SDK メソッドが Databricks 管理の MLflow と統合されました。
開始するための一連のチュートリアルについては、 「開始する」を参照してください。
MLflow 3 が GenAI アプリの品質を最適化する方法
GenAI アプリケーションとエージェントの評価は、従来のソフトウェアの評価よりも複雑です。入力と出力は多くの場合自由形式のテキストであり、さまざまな出力が正しいとみなされます。品質は、正確性だけでなく、精度、長さ、完全性、適切性、およびユースケースに固有のその他の基準などの要素によっても異なります。LLM は本質的に非決定的であり、GenAI エージェントにはリトリーバーやツールなどの追加コンポーネントが含まれているため、その応答は実行ごとに異なる場合があります。
開発者は、堅牢なAIアプリを構築して展開するために、具体的な品質のメトリクス、自動評価、継続的なモニタリングを必要としています。 MLflow 3 for GenAI は、効率的な開発、展開、継続的な改善のために以下の重要な要素を提供します。
- トレースは入力、中間ステップ、出力を自動的に記録し、評価とモニタリングのためのデータ基盤を提供します。
- 統合されたカスタムLLMジャッジとスコアラーを使用すると、品質のさまざまな側面を定義し、ユースケースに合わせてメトリクスをカスタマイズできます。
- 専門家のフィードバックを得るためのレビュー アプリを使用すると、評価用のデータセットを収集してラベル付けし、自動化された審査員と採点者を専門家の判断に合わせることができます。
- 自動評価とモニタリングは、開発中と本番運用中に同じ審査員と採点者を活用します。
- アプリとプロンプトのバージョン管理により、バージョンを比較し、反復を通じて改善を追跡できます。
Databricks で MLflow 3 を使用すると、データに AI を導入して、品質を深く理解し、向上させることができます。Unity Catalog は、プロンプト、アプリ、トレースの一貫したガバナンスを提供します。MLflow 、任意のモデルやフレームワークを使用して、開発ループ全体から本番運用までサポートします。
始めましょう
包括的な可観測性と評価ツールで、より優れた生成AIアプリケーションの構築を始めましょう。
タスク | 説明 |
|---|---|
最初のアプリケーションをトレース、評価の実行、および人間からのフィードバックの収集によってインストルメント化するためのステップバイステップの手順に従って、数分で起動して実行できます。 | |
シンプルな GenAI アプリをインストルメント化して、デバッグと最適化のための詳細なトレースを自動的にキャプチャします。 | |
Retrieval-Augmented Generation (RAG) を使用する電子メール生成アプリを評価する手順を説明します。 | |
エンドユーザーのフィードバックを収集し、開発者の注釈を追加し、専門家のレビュー セッションを作成し、そのフィードバックを使用して GenAI アプリの品質を評価します。 |
トレース
MLflow Tracing可観測性を提供し、評価とモニタリングに必要なトレース データを記録します。
機能 | 説明 |
|---|---|
複雑なエージェントベースのシステムを含む GenAI アプリケーションのエンドツーエンドの可観測性。入力、出力、中間ステップ、メタデータを追跡して、アプリの動作を完全に把握します。 | |
トレースの概念の紹介。 | |
完全な実行の可視性により、プロンプト、取得、ツール呼び出し、応答、遅延、およびコストをキャプチャできます。 | |
開発環境と本番運用環境で同じインストゥルメンテーションを使用して、一貫した評価を実現します。 | |
トレースを分析して品質の問題を特定し、トレース データから評価データセットを作成し、対象を絞った改善を行い、変更の影響を測定します。 | |
MLflow Tracing は、自動トレース用の多くのライブラリやフレームワークと統合されており、最小限のセットアップで GenAI アプリケーションを即座に監視できます。 |
評価とモニタリング
手動テストを、人間の専門知識と一致し、開発と本番運用の両方に適用できる組み込みおよびカスタムLLMジャッジとスコアラーを使用した自動評価に置き換えます。 すべての本番運用のやり取りは、統合されたフィードバックと評価のワークフローによって改善する機会となります。
機能 | 説明 |
|---|---|
DatabricksでMLflow 3 を使用したエージェントの評価とモニタリングの概要。 | |
MLflow 3 には、安全性、関連性、正確性、検索品質などを評価するLLMジャッジが組み込まれています。 特定のビジネス要件に合わせて、カスタム LLM 審査員とコードベースのスコアラーを作成することもできます。 | |
開発中またはリリース プロセスの一部として評価を実行します。 | |
LLMジャッジとスコアラーを使用して本番運用トラフィックのサンプルを継続的に監視します。 | |
開発中および本番運用中にドメイン エキスパートとエンド ユーザーからのフィードバックを収集して活用し、継続的な改善に努めます。 |
GenAIアプリのライフサイクルを管理する
生成AIアプリケーション全体をバージョン管理、追跡、管理するために、エンタープライズグレードのライフサイクル管理およびガバナンスツールをご利用ください。
機能 | 説明 |
|---|---|
各バージョンのコード、パラメーター、評価メトリクスを追跡します。 | |
A/B テスト機能と Unity Catalog の統合により、組織全体でのバージョニングとプロンプトの共有を一元管理します。 | |
エンタープライズ統合 | Unity Catalog。エンタープライズ セキュリティ、アクセス制御、コンプライアンス機能を備えた、すべての AI 資産のガバナンスを一元化します。 データインテリジェンス。生成AIデータを Databricks レイクハウスのビジネスデータに接続し、ビジネスのステークホルダーにカスタムアナリティクスを提供します。 Mosaic AI エージェントの提供。エージェントを本番運用にデプロイし、スケーリングと運用の厳密さを実現します。 |