メインコンテンツまでスキップ

DeepSpeedを使用した分散トレーニング

備考

ベータ版

この機能はベータ版です。

このページには、サーバレス GPU コンピュートでDeepSpeedを使用した分散トレーニングのノートブックの例が掲載されています。 DeepSpeed は、ZeRO (Zero Redundancy Optimizer) ステージを通じて高度なメモリ最適化手法を提供し、大規模モデルの効率的なトレーニングを可能にします。

DeepSpeedを使用する場合

DeepSpeed は次の場合に使用します。

  • 標準のFSDPを超える高度なメモリ最適化が必要です
  • オプティマイザーの状態シャーディングをきめ細かく制御したい(ZeROステージ1、2、または3)
  • 勾配累積融合やCPUオフロードなどの追加機能が必要です
  • あなたは大規模言語モデル (1B から 100B+ まで) を使用しています。

より単純なユースケースの場合は、 DDPを検討してください。PyTorch ネイティブの大規模モデルのトレーニングについては、 FSDP を参照してください。

TRL と DeepSpeed ZeRO Stage 3 を使用した監修付きファインチューニング

このノートブックでは、サーバレス GPU Python API使用して、単一ノードの A10 GPU 上で DeepSpeed ZeRO Stage 3 最適化を備えたTransformer強化学習 (TRL)ライブラリを使用して教師ありファインチューニング (SFT) を実行する方法を示します。 このアプローチは、マルチノード設定に拡張できます。

TRLディープスピード

Open notebook in new tab