ディープラーニング

この記事では、 PyTorch、Tensorflow、および分散トレーニングを使用して、 Databricksでディープラーニングモデルを開発およびファインチューニングする方法を簡単に紹介します。また、これらのツールの使用方法を示すサンプルノートブックを含むページへのリンクも含まれています。

Databricksでのディープラーニングワークフローの最適化に関する一般的なガイドラインについては、「Databricksでのディープラーニングのベストプラクティス」を参照してください。
Databricksにおける大規模言語モデルと生成AIの生成の操作に関する情報については、以下を参照してください。
- Databricks 上の大規模言語モデル (LLM)。
- Databricks での AI と機械学習。
サーバレス GPU コンピュートをシングルノードおよびマルチノードディープラーニングワークロードに使用するための情報とガイダンスについては、「サーバレス GPU コンピュート」を参照してください。

PyTorch

PyTorch は Databricks Runtime ML に含まれており、GPU で高速化されたテンソル計算と、ディープラーニングネットワークを構築するための高度な機能を提供します。単一ノードトレーニングまたは、Databricks 上の PyTorch を使用した分散トレーニングを実行できます。PyTorchを参照してください。PyTorch と MLflowを使用したエンドツーエンドのチュートリアルノートブックについては、「チュートリアル: Databricksのエンドツーエンドディープラーニングモデル」を参照してください。

TensorFlow

Databricks Runtime ML には TensorFlow と TensorBoard が含まれているため、パッケージをインストールせずにこれらのライブラリを使用できます。 TensorFlow は、CPU、GPU、GPU のクラスターに関するディープラーニングと一般的な数値計算をサポートしています。 TensorBoard には、機械学習とディープラーニングワークフローのデバッグと最適化に役立つ視覚化ツールが用意されています。単一ノードと分散トレーニングの例については、 TensorFlow を参照してください。

分散トレーニング

ディープラーニングモデルはデータと計算を集中的に使用するため、分散トレーニングが重要になる場合があります。 Ray、TorchDistributor、DeepSpeed との統合を使用した分散ディープラーニングの例については、分散トレーニングを参照してください。