DeepSpeedを使用した分散トレーニング

備考

ベータ版

この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。「Databricks プレビューの管理」を参照してください。

このページには、サーバレス GPU コンピュートでDeepSpeedを使用した分散トレーニングのノートブックの例が掲載されています。 DeepSpeed は、ZeRO (Zero Redundancy Optimizer) ステージを通じて高度なメモリ最適化手法を提供し、大規模モデルの効率的なトレーニングを可能にします。

DeepSpeedを使用する場合

DeepSpeed は次の場合に使用します。

標準のFSDPを超える高度なメモリ最適化が必要です
オプティマイザーの状態シャーディングをきめ細かく制御したい（ZeROステージ1、2、または3）
勾配累積融合やCPUオフロードなどの追加機能が必要です
あなたは大規模言語モデル (1B から 100B+ まで) を使用しています。

より単純なユースケースの場合は、 DDPを検討してください。PyTorch ネイティブの大規模モデルのトレーニングについては、 FSDP を参照してください。

例

チュートリアル	説明
TRL と DeepSpeed ZeRO Stage 3 を使用した監修付きファインチューニング	サーバレス GPU Python API使用して、シングルノード A10 GPU 上で DeepSpeed ZeRO Stage 3 最適化を備えたTransformer強化学習 (TRL) ライブラリを使用して教師ありファインチューニング (SFT) を実行します。

DeepSpeedを使用する場合​

例​

DeepSpeedを使用する場合

例