メインコンテンツまでスキップ

AI Runtime CLI の例

備考

ベータ版

この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。Databricksのプレビューを管理するを参照してください。

次の例は、air CLI から air run -f train.yaml を使用して送信する、完全なエンドツーエンドのワークロードです。それぞれがH100 GPU上での実際の分散トレーニングパターンを示しており、ワークロードYAML、ランチャースクリプト、トレーニングコードなどが含まれます。まだ実行したことがない場合は、クイックスタートから始めてください。

    • FSDP によるマルチノード LLM ファインチューニング
    • Llama-3.1-8B の教師ありファインチューニングtorchrun および PyTorch 完全シャーディングデータパラレル (FSDP) を使用して、16基のH100 GPU (2ノード) でMLflowにログを記録し、Unity Catalogボリュームにチェックポイントを保存します。
    • Ray Train による分散トレーニング
    • シングルノードで8基のH100 GPUを使い、GPUあたり1つのワーカーを割り当てたRay TrainのTorchTrainerによる分散データ並列ファインチューニング