メインコンテンツまでスキップ

Ollamaのトレース

オートログによるOllamaトレース

Ollama は、Llama 3.2、Gemma 2、Mistral、Code Llama などの大規模言語モデル (LLM) をデバイス上でローカルに実行できるようにするオープンソース プラットフォームです。

Ollama によって提供されるローカル LLM エンドポイントは OpenAI API と互換性があるため、OpenAI SDK を介してクエリを実行し、 mlflow.openai.autolog()で Ollama のトレースを有効にすることができます。Ollama を介した LLM インタラクションは、アクティブ MLflow エクスペリメントに記録されます。

Python
import mlflow

mlflow.openai.autolog()

使用例

  1. 目的の LLM モデルで Ollama サーバーを実行します。
Bash
ollama run llama3.2:1b
  1. OpenAI SDK の自動トレースを有効にします。
import mlflow

# Enable auto-tracing for OpenAI
mlflow.openai.autolog()

# Set up MLflow tracking on Databricks
mlflow.set_tracking_uri("databricks")
mlflow.set_experiment("/Shared/ollama-demo")
  1. LLM をクエリし、MLflow UI でトレースを確認します。
Python
from openai import OpenAI

client = OpenAI(
base_url="http://localhost:11434/v1", # The local Ollama REST endpoint
api_key="dummy", # Required to instantiate OpenAI client, it can be a random string
)

response = client.chat.completions.create(
model="llama3.2:1b",
messages=[
{"role": "system", "content": "You are a science teacher."},
{"role": "user", "content": "Why is the sky blue?"},
],
)

自動トレースを無効にする

Ollama の自動トレースは、 mlflow.openai.autolog(disable=True) または mlflow.autolog(disable=True)を呼び出すことで、グローバルに無効にできます。

次のステップ