生成AI対応 MLflow 3
このページでは、Databricksプラットフォームと統合された 生成AI対応 MLflow 3を使用して、本番運用グレードの 生成AI アプリを構築する方法について説明します。
従来のソフトウェアと ML テストは、生成AI の自由形式言語用に構築されていない ため、チームが品質を測定して改善することは困難です。
MLflow 3 は、 生成AI の品質を確実に測定する AI を活用したメトリクス と包括的な トレースの可観測性 を組み合わせることでこれを解決し、アプリケーションのライフサイクル全体を通じて品質を 測定、改善、監視 できるようにします。
エージェント評価は、マネージド MLflow 3 と統合されています。Agent Evaluation SDK メソッドは、 mlflow[databricks]>=3.1
SDK を通じて公開されるようになりました。MLflow 2 とエージェントの評価 コードを MLflow 3 SDK に更新するには、移行ガイド を参照してください。
トレースを使用した 生成AI アプリの監視とデバッグ
トレースにより、 生成AIアプリケーションが何をしているのかを正確に確認 し、実行のすべてのステップをキャプチャする包括的な可観測性を確保できます。
- OpenAI、LangChain、LlamaIndex、Anthropic、DSPyを含む20以上のライブラリを 1行で計測可能に
- 完全な実行の可視性 - プロンプト、取得、ツール呼び出し、応答、遅延、コスト
- 本番運用レベル - 開発と本番運用で同じ計測処理が機能します
- OpenTelemetry 互換 - トレースをどこにでもエクスポートし、完全なデータ所有権を維持
# Just add one line to capture everything
mlflow.autolog()
# Your existing code works unchanged
response = client.chat.completions.create(...)
# Traces are automatically captured!
生成AIアプリの自動品質評価
手動テストを自動評価に置き換える LLM人の専門知識にマッチしたジャッジで、開発にも本番運用にも適用できます。
組み込みのジャッジ
- 安全性 - 有害または有毒なコンテンツを検出します
- 幻覚とグラウンディング - 応答が検索されたコンテキストに忠実であることを確認する
- 関連性 - ユーザーのリクエストに対応する応答を確認する
- 正しさ - 検証応答は、グラウンドトゥルース応答と同じ事実を提供します
- 検索品質 - RAGが正しい情報を見つけたかどうかを測定します。
カスタムジャッジ
- あなたのビジネスに合わせて調整 - あなたの特定の要件を強制するジャッジを作成します
- 専門家との連携 - あなたのドメイン専門家の判断に合うようにジャッジを訓練します。
本番運用データを改善に変える
本番運用のインタラクションは、 統合されたフィードバックと評価ワークフローにより、改善の機会となります。
専門家によるフィードバック収集
- レビューとラベリング - ビジネスの利害関係者や専門家は、コードを書かずに、本番運用トレースの評価、修正、ガイドラインをレビューし、提供することができます
- ライブテスト - SME はアプリとチャットし、すぐにフィードバックを提供します
開発 と 本番運用のループを閉じる
- 本番運用からの評価データセット - 問題のあるトレースをテストケースに変換
エンドユーザーのフィードバック
- フィードバックの収集 - デプロイされたアプリからプログラムでサムズアップ/ダウンとコメントをキャプチャします
- トレースへのリンク - 完全な実行コンテキストで負のフィードバックをデバッグします
生成AIアプリケーションのライフサイクルを管理
生成AIアプリケーション全体をバージョン管理、追跡、管理し、 エンタープライズグレードのライフサイクル管理を実現します。
アプリケーションのバージョン管理
- LoggedModels - 各バージョンのコード、パラメーター、評価メトリクスを追跡します
- 完全なリネージ - トレース、評価、フィードバックを特定のバージョンにリンク
プロンプトレジストリ (近日公開予定)
- 一元管理 - 組織全体でプロンプトをバージョン管理し、共有
- A/B テスト - コードを変更せずに複数のプロンプト バージョンをデプロイします
- Unity Catalog の統合 - プロンプトのエンタープライズ ガバナンス
エンタープライズ統合
- Unity Catalog - すべての AI アセットの統合ガバナンス
- データインテリジェンス - 生成AIデータを Databricks レイクハウスのビジネスデータに接続し、ビジネス関係者にカスタムアナリティクスを提供します
- Mosaic AI Agent Serving - スケーリングと運用の厳密さを備えたエージェントを本番運用にデプロイします
より優れた 生成AI アプリケーションの構築を開始
:::tip クイックスタート 初めてのアプリケーションを計測する準備はできましたか? クイックスタートガイドでは、数分で稼働させることができます。
カテゴリ:
- Databricks ノートブック - 管理された環境で開始する
- ローカル IDE - マシンで開発 :::
チームが 生成AI対応 MLflow 3 を選択する理由
統合プラットフォーム
開発デバッグから本番運用 モニタリングまで、必要なものがすべて 1 か所に集まっています。
オープンで柔軟性が高い
ベンダーロックインのないオープンソースの基盤。任意の LLM プロバイダー、任意のフレームワークを使用できます。
エンタープライズ対応
Databricks のプラットフォーム上に構築され、エンタープライズのセキュリティ、スケール、ガバナンスを備えています。
実証済みの結果
MLflowを使用して、本番運用 生成AI アプリケーションを構築する数千の組織に加わりましょう。
最初の一歩を踏み出してください。 クイックスタートガイド に従って、生成AIアプリケーションの実行を数分で確認してください。