ディープラーニング
この記事では、 PyTorch、Tensorflow、および分散トレーニングを使用して、 Databricksでディープラーニング モデルを開発およびファインチューニングする方法を簡単に紹介します。 また、これらのツールの使用方法を示すサンプル ノートブックを含むページへのリンクも含まれています。
- Databricksでのディープラーニング ワークフローの最適化に関する一般的なガイドラインについては、「Databricksでのディープラーニングのベスト プラクティス」を参照してください。
- 大規模言語モデルと での の生成の操作に関する情報については、以下を参照してください。AIDatabricks
PyTorch
PyTorch は Databricks Runtime ML に含まれており、GPU で高速化されたテンソル計算と、ディープラーニング ネットワークを構築するための高度な機能を提供します。 単一ノード トレーニングまたは、Databricks 上の PyTorch を使用した分散トレーニングを実行できます。 PyTorchを参照してください。
TensorFlowの
Databricks Runtime ML には TensorFlow と TensorBoard が含まれているため、パッケージをインストールせずにこれらのライブラリを使用できます。 TensorFlow は、CPU、GPU、GPU のクラスターに関するディープラーニングと一般的な数値計算をサポートしています。 TensorBoard には、機械学習とディープラーニング ワークフローのデバッグと最適化に役立つ視覚化ツールが用意されています。 単一ノードと分散トレーニングの例については、 TensorFlow を参照してください。
分散トレーニング
ディープラーニングモデルはデータと計算を集中的に使用するため、分散トレーニングが重要になる場合があります。 Ray、TorchDistributor、DeepSpeed との統合を使用した分散ディープラーニングの例については、 分散トレーニングを参照してください。
ディープラーニング モデル開発の追跡
トラッキングは依然として MLflow エコシステムの基盤であり、ディープラーニングの反復的な性質にとって特に重要です。 Databricks は MLflow を使用して、ディープラーニングのトレーニングの実行とモデル開発を追跡します。 「MLflow を使用してモデル開発を追跡する」を参照してください。