メインコンテンツまでスキップ

MLflow 3.0 生成AI ワークフロー (Beta)

備考

ベータ版

この機能は ベータ版です。

ノートブックの例

このサンプル ノートブックでは、エージェントを作成し、MLflow にログを記録し、そのパフォーマンスを評価します。ノートブックは、 databricks-langchaindatabricks-agentsuv、および langgraph==0.3.4 ライブラリをインストールします。このノートブックは、 LangGraph ツール呼び出しエージェント ノートブックを適応させたものです。その他のノートブックの例とエージェントの作成方法の詳細については、「 コードで AI エージェントを作成する」を参照してください。

MLflow 3.0 生成AIエージェントの構築、評価 ノートブック

Open notebook in new tab

MLflow UI を使用してエージェントのパフォーマンスを調べる

ノートブック コードは初期テストを実行し、チェーンに対してクエリを実行して、チェーンがさらにテストするのに十分なパフォーマンスを発揮することを確認します。このテストのトレースは、MLflow UI のモデル詳細ページの トレース タブで使用できます。

複数のトレースの詳細を示すモデル ページの [トレース] タブ。

ノートブックの例の評価実行では、対話型クエリと評価から 2 つの MLflow ラン、1 つの MLflow LoggedModel、およびトレースが生成されます。 エージェントの評価メトリクスは、 MLflow エクスペリメントの機種詳細ページにすべて表示されています。

チェーンのMLflow UI モデルページで、メトリクスとパラメーターが表示されます。

モデル ID とモデル パラメーターとメトリクスは、 Unity Catalog モデル バージョン ページにも表示されます。

複数の実行からのメトリクスを示す Unity Catalog のモデルバージョンページ。

Mosaic AI Model Serving を使用して、このモデルを任意のアプリケーションに埋め込むことができるライブエンドポイントに提供できるようになりました。サービス エンドポイントのオンライン呼び出しからのトレースは、開発フェーズからのオフライン トレースと共に、Unity Catalog モデル バージョンの トレース タブにも記録されます。生成AIアプリケーションのためのエージェントのデプロイを参照してください。

Unity Catalog のモデル バージョン ページの [トレース] タブには、複数のトレースの詳細が表示されます。

MLflow のトレースとフィードバックとツール呼び出しエージェントによるフィードバック

この短いチュートリアルでは、MLflow が数学的な問題を解決するときに、LangChain ツール呼び出しエージェントの詳細なトレースをキャプチャする方法を示します。これは、エージェントの実行を追跡し、エージェントの応答に関するフィードバックを格納する MLflow の機能を示しています。フィードバックは、 log_feedback API を使用してログに記録され、エージェントの品質を測定し、改善するのに非常に役立ちます。

MLflow 3.0 のトレースとフィードバックとツール呼び出しエージェント ノートブック

Open notebook in new tab

詳細情報

詳細については、次のページを参照してください。

エクスペリメント ページのモデルタブとMLflow Catalog Explorer のモデル バージョン ページの違いは何ですか?

エクスペリメント ページモデル タブとカタログエクスプローラー のモデル バージョン ページには、モデルに関する同様の情報が表示されます。この 2 つのビューは、モデルの開発とデプロイのライフサイクルで異なる役割を果たします。

  • エクスペリメントページの モデル タブには、エクスペリメントの記録済みモデルの結果を1つのページに掲載しています。 このページの チャートタブでは、モデルを比較し、デプロイのために Unity Catalog に登録するモデルのバージョンを選択するのに役立つ視覚化を提供します。
  • カタログ エクスプローラーのモデル バージョン ページには、すべてのモデルのパフォーマンスと評価結果の概要が表示されます。このページには、さまざまなワークスペース、エンドポイント、エクスペリメントなど、リンクされたすべての環境にわたるモデル パラメーター、メトリクス、トレースが表示されます。 これは、モニタリングとデプロイに役立ち、 デプロイジョブで特にうまく機能します。 デプロイメント・ジョブの評価タスクは、このページに表示される追加のメトリクスを作成します。 ジョブの承認者は、このページを確認して、デプロイのモデル バージョンを承認するかどうかを評価できます。