AI Runtime CLI の例
備考
ベータ版
この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。Databricksのプレビューを管理するを参照してください。
次の例は、air CLI から air run -f train.yaml を使用して送信する、完全なエンドツーエンドのワークロードです。それぞれがH100 GPU上での実際の分散トレーニングパターンを示しており、ワークロードYAML、ランチャースクリプト、トレーニングコードなどが含まれます。まだ実行したことがない場合は、クイックスタートから始めてください。
-
- FSDP によるマルチノード LLM ファインチューニング
- Llama-3.1-8B の教師ありファインチューニング
torchrunおよび PyTorch 完全シャーディングデータパラレル (FSDP) を使用して、16基のH100 GPU (2ノード) でMLflowにログを記録し、Unity Catalogボリュームにチェックポイントを保存します。
-
- Ray Train による分散トレーニング
- シングルノードで8基のH100 GPUを使い、GPUあたり1つのワーカーを割り当てたRay Trainの
TorchTrainerによる分散データ並列ファインチューニング