生成AI対応 MLflow 3

MLflow 3 for GenAI は、開発および運用ライフサイクル全体にわたって GenAI アプリとエージェントの追跡、評価、および観測可能性を統合するオープンプラットフォームです。これには、リアルタイムのトレースのログ記録、組み込みおよびカスタムスコアラー、人間によるフィードバックの組み込み、バージョン追跡が含まれており、開発中にアプリの品質を効率的に評価および改善し、本番運用で品質を継続的に追跡および改善するのに役立ちます。

DatabricksのマネージドMLflow 、エンタープライズ対応のガバナンス、フルマネージドホスティング、本番運用レベルのスケーリング、 DatabricksレイクハウスおよびUnity Catalogのデータとの統合など、本番運用 GenAI アプリケーション用に設計された機能でオープンソースMLflow拡張します。

MLflow 2 でのエージェント評価の詳細については、 Mosaic AIエージェント評価 ( MLflow 2)」および移行ガイドを参照してください。 MLflow 3 では、エージェント評価 SDK メソッドが Databricks 管理の MLflow と統合されました。

開始するための一連のチュートリアルについては、「開始する」を参照してください。

MLflow 3 が GenAI アプリの品質を最適化する方法

GenAI アプリケーションとエージェントの評価は、従来のソフトウェアの評価よりも複雑です。入力と出力は多くの場合自由形式のテキストであり、さまざまな出力が正しいとみなされます。品質は、正確性だけでなく、精度、長さ、完全性、適切性、およびユースケースに固有のその他の基準などの要素によっても異なります。LLM は本質的に非決定的であり、GenAI エージェントにはリトリーバーやツールなどの追加コンポーネントが含まれているため、その応答は実行ごとに異なる場合があります。

開発者は、堅牢なAIアプリを構築して展開するために、具体的な品質のメトリクス、自動評価、継続的なモニタリングを必要としています。 MLflow 3 for GenAI は、効率的な開発、展開、継続的な改善のために以下の重要な要素を提供します。

トレースは入力、中間ステップ、出力を自動的に記録し、評価とモニタリングのためのデータ基盤を提供します。
統合されたカスタムLLMジャッジとスコアラーを使用すると、品質のさまざまな側面を定義し、ユースケースに合わせてメトリクスをカスタマイズできます。
専門家のフィードバックを得るためのレビューアプリを使用すると、評価用のデータセットを収集してラベル付けし、自動化されたジャッジとスコアラーを専門家の判断に合わせることができます。
自動評価とモニタリングは、開発中と本番運用中に同じジャッジとスコアラーを活用します。
アプリとプロンプトのバージョン管理により、バージョンを比較し、反復を通じて改善を追跡できます。

Databricks で MLflow 3 を使用すると、データに AI を導入して、品質を深く理解し、向上させることができます。Unity Catalog は、プロンプト、アプリ、トレースの一貫したガバナンスを提供します。MLflow 、任意のモデルやフレームワークを使用して、開発ループ全体から本番運用までサポートします。

始めましょう

包括的な可観測性と評価ツールで、より優れた生成AIアプリケーションの構築を始めましょう。

タスク	説明
クイックスタートガイド	最初のアプリケーションをトレース、評価の実行、および人間からのフィードバックの収集によってインストルメント化するためのステップバイステップの手順に従って、数分で起動して実行できます。
はじめに: 生成AIに対するMLflow Tracing (Databricksノートブック)	シンプルな GenAI アプリをインストルメント化して、デバッグと最適化のための詳細なトレースを自動的にキャプチャします。
チュートリアル: GenAI アプリケーションの評価と改善	Retrieval-Augmented Generation (RAG) を使用する電子メール生成アプリを評価する手順を説明します。
10分間のデモ: 人間のフィードバックを収集する	エンドユーザーのフィードバックを収集し、開発者の注釈を追加し、専門家のレビューセッションを作成し、そのフィードバックを使用して GenAI アプリの品質を評価します。

トレース

MLflow Tracing可観測性を提供し、評価とモニタリングに必要なトレースデータを記録します。

機能	説明
MLflow Tracing	複雑なエージェントベースのシステムを含む GenAI アプリケーションのエンドツーエンドの可観測性。入力、出力、中間ステップ、メタデータを追跡して、アプリの動作を完全に把握します。
トレースとは何ですか?	トレースの概念の紹介。
アプリの動作とパフォーマンスを確認する	完全な実行の可視性により、プロンプト、取得、ツール呼び出し、応答、遅延、およびコストをキャプチャできます。
本番運用の可観測性	開発環境と本番運用環境で同じインストゥルメンテーションを使用して、一貫した評価を実現します。
評価データセットを構築する	トレースを分析して品質の問題を特定し、代表的なトレースを選択し、評価データセットを作成し、アプリケーションを体系的に改善します。
統合の追跡	MLflow Tracing は、自動トレース用の多くのライブラリやフレームワークと統合されており、最小限のセットアップで GenAI アプリケーションを即座に監視できます。

評価とモニタリング

手動テストを、人間の専門知識と一致し、開発と本番運用の両方に適用できる組み込みおよびカスタムLLMジャッジとスコアラーを使用した自動評価に置き換えます。すべての本番運用のやり取りは、統合されたフィードバックと評価のワークフローによって改善する機会となります。

機能	説明
GenAIエージェントの評価と監視	DatabricksでMLflow 3 を使用したエージェントの評価とモニタリングの概要。
LLMジャッジとスコアラー	MLflow 3 には、安全性、関連性、正確性、検索品質などを評価するLLMジャッジが組み込まれています。特定のビジネス要件に合わせて、カスタム LLM ジャッジとコードベースのスコアラーを作成することもできます。
評価	開発中またはリリースプロセスの一部として評価を実行します。
本番運用のモニタリング	LLMジャッジとスコアラーを使用して本番運用トラフィックのサンプルを継続的に監視します。
人間のフィードバックの収集	開発中および本番運用中にドメインエキスパートとエンドユーザーからのフィードバックを収集して活用し、継続的な改善に努めます。

GenAIアプリのライフサイクルを管理する

生成AIアプリケーション全体をバージョン管理、追跡、管理するために、エンタープライズグレードのライフサイクル管理およびガバナンスツールをご利用ください。

機能	説明
アプリケーションのバージョン管理	各バージョンのコード、パラメーター、評価メトリクスを追跡します。
プロンプトレジストリ	A/B テスト機能と Unity Catalog の統合により、組織全体でのバージョニングとプロンプトの共有を一元管理します。
エンタープライズ統合	Unity Catalog。エンタープライズセキュリティ、アクセス制御、コンプライアンス機能を備えた、すべての AI 資産のガバナンスを一元化します。データインテリジェンス。生成AIデータを Databricks レイクハウスのビジネスデータに接続し、ビジネスのステークホルダーにカスタムアナリティクスを提供します。 Mosaic AI エージェントの提供。エージェントを本番運用にデプロイし、スケーリングと運用の厳密さを実現します。

機能

説明

アプリケーションのバージョン管理

各バージョンのコード、パラメーター、評価メトリクスを追跡します。

プロンプトレジストリ

A/B テスト機能と Unity Catalog の統合により、組織全体でのバージョニングとプロンプトの共有を一元管理します。

エンタープライズ統合

Unity Catalog。エンタープライズセキュリティ、アクセス制御、コンプライアンス機能を備えた、すべての AI 資産のガバナンスを一元化します。

データインテリジェンス。生成AIデータを Databricks レイクハウスのビジネスデータに接続し、ビジネスのステークホルダーにカスタムアナリティクスを提供します。

Mosaic AI エージェントの提供。エージェントを本番運用にデプロイし、スケーリングと運用の厳密さを実現します。

MLflow 3 が GenAI アプリの品質を最適化する方法​

始めましょう​

トレース​

評価とモニタリング​

GenAIアプリのライフサイクルを管理する​

MLflow 3 が GenAI アプリの品質を最適化する方法

始めましょう

トレース

評価とモニタリング

GenAIアプリのライフサイクルを管理する