メインコンテンツまでスキップ

MLflow データの格納場所を選択する

MLflow 追跡サーバーは、エクスペリメントデータ、実行、およびモデルを保存および管理します。 追跡サーバーを構成して、 MLflow データの保存場所と、さまざまな環境間でエクスペリメントにアクセスする方法を制御します。

Databricks でホストされる追跡サーバー

デフォルトでは、 Databricks は次のようなマネージド MLflow トラッキング サーバーを提供します。

  • 追加のセットアップや構成は必要ありません
  • エクスペリメントデータをワークスペースに保存します
  • Databricks ノートブックおよびクラスターとシームレスに統合

アクティブなエクスペリメントを設定する

デフォルトでは、すべての MLflow 実行は、 アクティブなエクスペリメント。 エクスペリメントが明示的に設定されていない場合、実行は ノートブック エクスペリメントに記録されます。

実行がログインする場所を制御するには、アクティブなエクスペリメントを設定することで Databricks 。

実行で後続のすべての実行に対してエクスペリメントを設定します。

Python
import mlflow

mlflow.set_experiment("/Shared/my-experiment")

リモート MLflow 追跡サーバーへの追跡を設定する

リモート MLflow 追跡サーバーへの接続を設定する必要がある場合があります。これは、ローカルで開発していて、Databricks ホスト型サーバーに対して追跡する場合、または別の MLflow 追跡サーバーに対して追跡する場合が原因である可能性があります。たとえば、別のワークスペースにあるものなどです。

リモート追跡の一般的なシナリオ:

シナリオ

ユースケース

クロスワークスペースの追跡

複数のワークスペースにわたる一元化されたエクスペリメント追跡

ローカルでの開発

ローカルで開発するが、Databricksでエクスペリメントを追跡する

リモートセルフホスト

特定のコンプライアンス要件を持つカスタム MLflow インフラストラクチャ

トラッキング URI とエクスペリメントを設定する

エクスペリメントをリモートトラッキングサーバーに記録するには、トラッキングURIとエクスペリメントパスの両方を設定します。

Python
import mlflow

# Set the tracking URI to the remote server
mlflow.set_tracking_uri("databricks://remote-workspace-url")

# Set the experiment path in the remote server
mlflow.set_experiment("/Shared/centralized-experiments/my-project")

# All subsequent runs will be logged to the remote server
with mlflow.start_run():
mlflow.log_param("model_type", "random_forest")
mlflow.log_metric("accuracy", 0.95)

認証方法

リモート追跡サーバー接続には、適切な認証が必要です。Personal アクセストークン (PAT) またはサービスプリンシパルを使用して OAuth を選択します。

単純なトークンベースの認証には PAT を使用します。

長所: セットアップが簡単で、開発に適しています

短所: ユーザー固有、手動のトークン管理が必要

Python
import os

# Set authentication token
os.environ["DATABRICKS_TOKEN"] = "your-personal-access-token"

# Configure remote tracking
mlflow.set_tracking_uri("databricks://remote-workspace-url")
mlflow.set_experiment("/Shared/remote-experiment")