実験の追跡と観察可能性

備考

パブリックプレビュー

単一ノードタスク用のAI Runtimeはパブリックプレビュー段階にあります。マルチ GPU ワークロード用の分散トレーニングAPIベータ版のままです。

この記事では、AI Runtime上でMLflowを使用する方法、GPUの状態を監視する方法、ログを表示する方法、およびモデルのチェックポイントを管理する方法について説明します。

MLflowとの連携

AI Runtime 、エクスペリメントの追跡、モデルのログ記録、メトリクスの視覚化のためにMLflowとネイティブに統合します。

設定に関する推奨事項：

MLflowをバージョン3.7以降にアップグレードし、ディープラーニングのワークフローパターンに従ってください。
PyTorch Lightningの自動ログ記録を有効にする：
Python
```
import mlflow
mlflow.pytorch.autolog()
```
MLflowの実行名をカスタマイズするには、モデルのトレーニングコードをmlflow.start_run() APIスコープ内にカプセル化します。これにより、実行名を制御でき、以前の実行から再開できるようになります。 mlflow.start_run(run_name="your-custom-name")またはMLflowをサポートするサードパーティライブラリ ( Hugging Face Transformers など) のrun_name懸念を使用して実行名をカスタマイズできます。それ以外の場合、デフォルトの実行名はjobTaskRun-xxxxxです。
Python
```
from transformers import TrainingArguments
args = TrainingArguments(
    report_to="mlflow",
    run_name="llama7b-sft-lr3e5",  # <-- MLflow run name
    logging_steps=50,
)
```
サーバレス GPU API 、当然の名前/Users/{WORKSPACE_USER}/{get_notebook_name()}でMLflowエクスペリメントを自動的に起動します。ユーザーは環境変数MLFLOW_EXPERIMENT_NAMEでこれを上書きできます。環境変数MLFLOW_EXPERIMENT_NAMEには常に絶対パスを使用してください。
Python
```
import os
os.environ["MLFLOW_EXPERIMENT_NAME"] = "/Users/<username>/my-experiment"
```
以前の実行結果からMLFLOW_RUN_IDを設定することで、以前のトレーニングを再開します。
Python
```
mlflow.start_run(run_id="<previous-run-id>")
```
MLFlowLoggerのstep問題を適切なバッチ数に設定します。 MLflowは 1,000 万メトリクスステップの制限があります。大規模なトレーニング実行ですべてのバッチをログに記録すると、この制限に達する可能性があります。リソース制限を参照してください。

閲覧ログ

ノートブックの出力 — 標準出力とトレーニングコードからのエラーがノートブックのセル出力に表示されます。
ドライバーログ — デバッグの起動問題、環境セットアップの問題、ランタイムエラーについては、コンピュートパネルからアクセスできます。
MLflowログ — トレーニングメトリクス、問題、およびアーティファクトは、 MLflowエクスペリメント UI で表示できます。

モデルチェックポイント

モデルのチェックポイントをUnity Catalogボリュームに保存します。Unityカタログボリュームは、他のUnity Catalogオブジェクトと同様のガバナンスを提供します。 Databricksノートブックからボリューム内のファイルを参照するには、次のパス形式を使用します。

Text
/Volumes/<catalog>/<schema>/<volume>/<path>/<file-name>

チェックポイントをボリュームに保存する方法は、ローカルストレージに保存する方法と同じです。

以下の例は、 PyTorchチェックポイントをUnity Catalogボリュームに書き込む方法を示しています。

Python
import torch

checkpoint = {
    "epoch": epoch,  # last finished epoch
    "model_state_dict": model.state_dict(),  # weights & buffers
    "optimizer_state_dict": optimizer.state_dict(),  # optimizer state
    "loss": loss,  # optional current loss
    "metrics": {"val_acc": val_acc},  # optional metrics
    # Add scheduler state, RNG state, and other metadata as needed.
}
checkpoint_path = "/Volumes/my_catalog/my_schema/model/checkpoints/ckpt-0001.pt"
torch.save(checkpoint, checkpoint_path)

この方法は、分散型チェックポイントにも有効です。以下の例は、Torch Distributed Checkpoint API を使用した分散モデルのチェックポイント処理を示しています。

Python
import torch.distributed.checkpoint as dcp

def save_checkpoint(self, checkpoint_path):
    state_dict = self.get_state_dict(model, optimizer)
    dcp.save(state_dict, checkpoint_id=checkpoint_path)

trainer.save_checkpoint("/Volumes/my_catalog/my_schema/model/checkpoints")

複数ユーザーによるコラボレーション

すべてのユーザーが共有コード（ヘルパーモジュールや環境YAMLファイルなど）にアクセスできるようにするには、 /Workspace/Users/<your_email>/のようなユーザー固有のフォルダではなく、 /Workspace/Sharedに保存してください。
現在開発中のコードについては、ユーザー固有のフォルダ/Workspace/Users/<your_email>/内の Git フォルダを使用し、リモート Git リポジトリにプッシュしてください。これにより、複数のユーザーがユーザー固有のクローンとブランチを持つことができ、同時にバージョン管理にはリモートのGitリポジトリを使用できます。 DatabricksでGitを使用する際のベストプラクティスを参照してください。
共同作業者はノートブックを共有したり、コメントしたりできます。

Databricksのグローバル制限

リソース制限を参照してください。

MLflowとの連携​

閲覧ログ​

モデルチェックポイント​

複数ユーザーによるコラボレーション​

Databricksのグローバル制限​

MLflowとの連携

閲覧ログ

モデルチェックポイント

複数ユーザーによるコラボレーション

Databricksのグローバル制限