メインコンテンツまでスキップ

生成AI対応 MLflow 3

このページでは、Databricksプラットフォームと統合された 生成AI対応 MLflow 3を使用して、本番運用グレードの 生成AI アプリを構築する方法について説明します。

従来のソフトウェアと ML テストは、GenAI の自由形式言語用に構築されていないため、チームが品質を測定して改善することは困難です。MLflow 3 は、GenAI の品質を確実に測定する AI を活用したメトリクスと包括的なトレースの可観測性を組み合わせることでこれを解決し、アプリケーションのライフサイクル全体を通じて品質を測定、改善、監視できるようにします。

Databricks で GenAI に MLflow 3 を使用すると、次のような Databricks プラットフォームのすべての利点が得られます。

  • 統一されたプラットフォーム 。開発デバッグから本番運用 モニタリングまで、GenAI 開発プロセス全体を 1 か所で管理。
  • オープンで柔軟性があります 。任意の LLM プロバイダーと任意のフレームワークを使用します。
  • エンタープライズ対応 。Databricks プラットフォームは、エンタープライズのセキュリティ、スケール、ガバナンスを提供します。

エージェント評価 SDK メソッドは、Databricks マネージド MLflow 3 と統合されています。MLflow 2 でのエージェント評価に関する情報については、Mosaic AI エージェント評価 (MLflow 2) および移行ガイドを参照してください。

作業を開始するための一連のチュートリアルについては、「 MLflow 3 for GenAI の概要」を参照してください。

注記

オープンソース telemetry collection は MLflow 3.2.0 で導入されましたが、 デフォルト によって Databricks で無効 になります。 詳細については、 MLflow の使用状況追跡に関するドキュメントを参照してください。

トレースを使用した 生成AI アプリの監視とデバッグ

GenAIアプリケーションが何を行っているかを正確に把握し、実行のすべてのステップをキャプチャする包括的な可観測性を備えています。1 行のコードを追加するだけで、 MLflow Tracing はアプリケーション全体のすべてのプロンプト、取得、ツール呼び出し、応答、遅延、およびトークン数をキャプチャします。

Python
# Just add one line to capture everything
mlflow.autolog()

# Your existing code works unchanged
response = client.chat.completions.create(...)
# Traces are automatically captured!

評価比較

機能

説明

自動計装

OpenAI、LangChain、LlamaIndex、Anthropic、DSPyなどの20+ライブラリ用の1行インストゥルメンテーション。

アプリの動作とパフォーマンスを確認する

完全な実行の可視性により、プロンプト、取得、ツール呼び出し、応答、遅延、およびコストをキャプチャできます。

本番運用 observability

開発環境と本番運用環境で同じインストゥルメンテーションを使用して、一貫した評価を実現します。

OpenTelemetryの互換性

トレースをどこにでもエクスポートでき、完全なデータ所有権と統合の柔軟性を維持します。

生成AIアプリの自動品質評価

手動テストを、人間の専門知識にマッチする組み込みやカスタム LLMベースのスコアラーを使用した自動評価に置き換え、開発と本番運用の両方に適用することができます。

機能

説明

組み込み スコアラー

安全性、幻覚、関連性、正確性、検索品質を評価する、すぐに使えるスコアラーです。

カスタムスコアラー

お客様固有のビジネス要件を強制し、ドメインの専門家の判断に合わせるためのカスタマイズされたジャッジを作成します。

本番運用データを改善に変える

本番運用のインタラクションは、統合されたフィードバックと評価ワークフローにより、改善の機会となります。

トレースの概要

機能

説明

専門家のフィードバック収集

レビューアプリは、評価、修正、アプリケーションとの実際のインタラクションに関するガイドラインなど、ドメインの専門家のフィードバックを収集するための構造化されたプロセスとUIを提供します。

ライブアプリテスト

対象分野の専門家は、アプリとチャットして、継続的な改善のためのフィードバックを即座に提供できます。

本番運用からの評価データセット

評価データセットは、一貫性と再現性のある評価を可能にします。問題のある本番運用トレースは、継続的改善と回帰テストのテストケースになります。

ユーザーフィードバックの収集

ユーザーからのフィードバックをキャプチャし、特定のトレースにリンクすることで、デバッグと品質改善の知見を得ることができます。 デプロイされたアプリケーションからプログラムで親指のアップ/ダウンとコメントを収集します。

トレースによる品質の評価と改善

トレースを分析して品質の問題を特定し、トレースデータから評価データセットを作成し、的を絞った改善を実装し、変更の影響を測定します。

生成AIアプリケーションのライフサイクルを管理

GenAIアプリケーション全体をバージョン管理、追跡、管理するために、エンタープライズグレードのライフサイクル管理およびガバナンスツールをご利用ください。

機能

説明

アプリケーションのバージョン管理

各バージョンのコード、パラメーター、評価メトリクスを追跡します。

本番運用 トレース リンク

トレース、評価、フィードバックを特定のアプリケーションバージョンにリンクします。

プロンプトレジストリ

A/B テスト機能と Unity Catalog の統合により、組織全体でのバージョニングとプロンプトの共有を一元管理します。

エンタープライズ統合

Unity Catalog。エンタープライズ セキュリティ、アクセス制御、コンプライアンス機能を備えた、すべての AI 資産のガバナンスを一元化します。

データインテリジェンス。GenAIデータを Databricks レイクハウスのビジネスデータに接続し、ビジネスのステークホルダーにカスタムアナリティクスを提供します。

Mosaic AI エージェントの提供。エージェントを本番運用にデプロイし、スケーリングと運用の厳密さを実現します。

MLflow 3 for GenAI の概要

包括的な可観測性と評価ツールで、より優れたGenAIアプリケーションの構築を始めましょう。

タスク

説明

クイックスタートガイド

最初のアプリケーションをインストルメント化するためのステップバイステップの手順で、数分で立ち上げて実行できます。

Databricks ノートブックのセットアップ

事前に構成された依存関係と MLflow 3 機能への即時アクセスを備えたマネージド環境で開始します。

ローカルIDE開発

MLflow 3 の全機能とシームレスなクラウド統合により、ローカル マシンで開発できます。

データインテリジェンスの統合

GenAIデータを Databricks レイクハウスのビジネスデータに接続して、カスタムアナリティクスと知見を実現します。