DeepSpeedを使用した分散トレーニング
備考
ベータ版
この機能はベータ版です。
このページには、サーバレス GPU コンピュートでDeepSpeedを使用した分散トレーニングのノートブックの例が掲載されています。 DeepSpeed は、ZeRO (Zero Redundancy Optimizer) ステージを通じて高度なメモリ最適化手法を提供し、大規模モデルの効率的なトレーニングを可能にします。
DeepSpeedを使用する場合
DeepSpeed は次の場合に使用します。
- 標準のFSDPを超える高度なメモリ最適化が必要です
- オプティマイザーの状態シャーディングをきめ細かく制御したい(ZeROステージ1、2、または3)
- 勾配累積融合やCPUオフロードなどの追加機能が必要です
- あなたは大規模言語モデル (1B から 100B+ まで) を使用しています。
より単純なユースケースの場合は、 DDPを検討してください。PyTorch ネイティブの大規模モデルのトレーニングについては、 FSDP を参照してください。
TRL と DeepSpeed ZeRO Stage 3 を使用した監修付きファインチューニング
このノートブックでは、サーバレス GPU Python API使用して、単一ノードの A10 GPU 上で DeepSpeed ZeRO Stage 3 最適化を備えたTransformer強化学習 (TRL)ライブラリを使用して教師ありファインチューニング (SFT) を実行する方法を示します。 このアプローチは、マルチノード設定に拡張できます。