メインコンテンツまでスキップ

AI Runtime CLI クイックスタート

備考

ベータ版

AI Runtime CLI は ベータ版です。

このページでは、AI Runtime CLI を使用して、初めてのトレーニング ジョブを送信する方法について説明します。開始する前に、CLI をインストールして認証を構成します

ステップ1: YAML設定を作成する

ワークロードを説明するtrain.yamlを作成する。最小限の構成にはエクスペリメント名、コンピュート仕様、およびコマンドが必要です。以下のコマンドはローカルコードなしで実行されるため、すぐに最初の実行を送信できます。

YAML
experiment_name: my-first-air-run
compute:
num_accelerators: 1
accelerator_type: GPU_1xA10
command: echo "hello AIR!"

自分のコードを実行する

ローカルのトレーニングスクリプトを実行するには、Pythonの依存関係をリストするenvironmentブロックと、ローカルコードをアップロードするcode_sourceブロックを追加します。スクリプトをtrain.yamlの横に配置します:

Text
my-project/
├── train.yaml
└── train.py
YAML
experiment_name: my-first-air-run
environment:
version: '4'
dependencies:
- torch
- transformers
compute:
num_accelerators: 1
accelerator_type: GPU_1xA10
code_source:
type: snapshot
snapshot:
root_path: .
command: python $CODE_SOURCE_PATH/train.py

この構成は、リストされている依存関係をインストールし、現在のディレクトリ(root_path: .)をアップロードし、単一の A10 GPU で train.py を実行します。$CODE_SOURCE_PATH はリモートノード上のアップロードされたコードの場所に解決されます。Databricksでは、パスをハードコーディングするのではなく、これを使用することをお勧めします。environment.version はサーバレス GPU 環境バージョンを選択します。これはオプションです(デフォルトは '4' です)。利用可能なすべてのバージョンについては、「サーバレス環境のバージョン」を参照してください。

フィールドの完全な参照については、 「ワークロード YAML リファレンス」を参照してください。

ステップ2:実行を提出する

ワークロードを送信してください:

Bash
air run --file train.yaml

CLIはローカルコードをアップロードし(code_sourceを構成した場合)、ジョブを送信し、実行IDを出力します。後のコマンドで、そのIDを使用して実行の検査、監視、およびキャンセルを行います。

サブミッションによって、experiment_nameという名前のMLflowエクスペリメントに実行が作成されます(エクスペリメントは複数の実行を含むことができます)。その実行では、ワークロードのメトリクス、パラメーター、アーティファクト、およびログが記録されます。これらはすべて、ワークスペースのMLflow UIで表示できます。ログはMLflow外部でも利用可能です:ターミナルまたはファイルにストリームとして出力したり、air logs を使用して後でダウンロードすることもできます(ステップ 3を参照してください)。

ログが完了するまで監視するには、--watchを追加します:

Bash
air run --file train.yaml --watch

ステップ 3: 実行を検証する

ステータスを確認:

Bash
air get run <run-id>

出力には、ワークスペースUI内のMLflow実行を含むMLflowエクスペリメントおよびMLflow実行へのクリック可能なリンクが含まれています。

ログのストリームまたはダウンロード:

Bash
air logs <run-id>
air logs <run-id> --node 2
air logs <run-id> --download-to ./logs/

分散ワークロードは複数のノードで実行されます。デフォルトでは、air logsはノード0からストリームします。特定のノードからのログを表示するには、--nodeを渡してください。--download-to を使用して、ログをストリーミングするのではなく、ローカルディレクトリに書き込みます。

最近の実行の一覧表示:

Bash
air list runs --limit 10
air list runs --active

実行をキャンセル:

Bash
air cancel <run-id>

一般的なパターン

コマンドラインから YAML フィールドを上書きする:

Bash
air run --file train.yaml --override compute.num_accelerators=32 timeout_minutes=120

設定を送信なしで検証:

Bash
air run --file train.yaml --dry-run

送信を安全に再試行可能にする:

Bash
air run --file train.yaml --idempotency-key my-unique-key

同じキーが以前に使用されている場合、新しい実行を作成するのではなく、既存の実行が返されます。

次のステップ